评估使用电子健康记录数据纵向住房状况:自然语言处理的比较,结构化数据,patient-reported历史
- 1信息学、Decision-Enhancement和分析科学中心(想法),盐湖城退伍军人医疗保健系统,美国犹他盐湖城
- 2流行病学部门、犹他大学医学院,美国犹他盐湖城
- 3医疗创新研究中心、实施和政策(CSHIIP),大洛杉矶退伍军人卫生保健系统,洛杉矶,美国
- 4医学系的大卫·格芬医学院的加州大学洛杉矶,洛杉矶,美国
- 5沙漠太平洋精神疾病研究、教育和临床中心(MIRECC),退伍军人事务部大洛杉矶,洛杉矶,加州,美国
- 6流行病学、公共卫生学院,加州大学洛杉矶,洛杉矶,美国CA
- 7社区卫生学系、部署公共卫生学院的加州大学洛杉矶,洛杉矶,美国
- 8医学系的数据核心,大卫格芬医学院的加州大学洛杉矶,洛杉矶,美国
- 9美国退伍军人事务部,伯明翰退伍军人卫生保健系统,伯明翰,美国
- 10公共卫生学院的伯明翰阿拉巴马大学,伯明翰,美国
- 11国家无家可归的项目办公室,美国退伍军人事务部,华盛顿特区,美国
- 12精神病学和生物行为科学部门,大卫格芬医学院的加州大学洛杉矶,洛杉矶,加州,美国
作品简介:测量长期住房是重要的评估结果的影响服务无家可归的人的经验。然而,评估长期住房状态使用传统方法是具有挑战性的。退伍军人事务部(VA)电子健康记录(EHR)提供详细数据的庞大的人口无家可归的经验和患者包含几个住房指标不稳定,包括结构化数据元素(例如,诊断代码)和自由文本临床叙述。然而,这些数据元素的有效性测量房屋稳定性不是很好。
方法:我们比较VA EHR的住房指标不稳定,包括信息提取临床使用自然语言处理(NLP)指出,与patient-reported群homeless-experienced退伍军人住房的结果。
结果:NLP实现比标准更高的敏感性和特异性诊断代码检测的不稳定的住房。其他结构化数据元素在弗吉尼亚州EHR显示有前途的性能,尤其是当与NLP相结合。
讨论:评价工作和研究纵向房地产评估的结果应该合并多个数据源文档实现最优性能。
1。介绍
健康问题社会决定因素(SDoH)明显影响患者的健康和生活质量。住房状况是一个关键SDoH无家可归和结束在美国退伍军人优先考虑的是一个国家退伍军人事务部(VA),它提供了一个广泛的医疗和住房服务homeless-experienced退伍军人(戊肝病毒)。评估VA无家可归者服务的有效性,评估短期和长期住房的结果是至关重要的。然而,迄今为止,大多数研究评估房地产的结果需要收集重复patient-reported措施的住房状况,昂贵的和具有挑战性的获得。
在弗吉尼亚州和其他综合医疗系统,电子健康记录(EHR)是一种潜在的有价值的来源数据纵向住房的结果。然而,为此目的而使用EHR数据是具有挑战性的由于测量误差,缺失的数据,和其他复杂(Botsis et al ., 2010;井et al ., 2013;Glicksberg et al ., 2018(),可以使用纵向偏差结果进行评估分析林et al ., 2004;Pullenayegum Lim, 2016;Lokku et al ., 2021)。SDoH通常记录在电子健康档案使用临床叙述自由文本(组织,2004年;Gundlapalli et al ., 2013,2015年;Peterson和Gundlapalli, 2015年;康威et al ., 2019;查普曼et al ., 2021;Hatef et al ., 2022;Lybarger Yetisgen, 2023;蔡et al ., 2022),多项研究开发方法从临床中提取住房数据的文本(Gundlapalli et al ., 2013;康威et al ., 2019;查普曼et al ., 2021;Hatef et al ., 2022;Lybarger Yetisgen, 2023)。在弗吉尼亚州,这样一个系统是相对的住房稳定电子文档(搬迁)(查普曼et al ., 2021),一个自然语言处理(NLP)系统开发提取住房稳定EHR评估VA无家可归的预防和快速安置计划。被迫搬迁了更高的有效性识别无家可归状态相比,国际疾病分类10th版(icd - 10)代码,一套标准化的代码代表世界卫生组织公布的临床诊断和症状(组织,2004年)。
然而,有几个挑战申请安置了研究房地产的结果。首先,系统可能需要调整为特定患者群或评估特定的服务。最初设计用于戊肝病毒进行快速安置计划;戊肝病毒进入其他无家可归的服务可能有不同的EHR注意结构或语言模式。第二,缺失的数据可能会导致偏见当使用安置了测量结果。信息只是记录EHR当病人的护理,这对有些病人可能发生更频繁。这会产生观察高度不规则的间隔,而不是固定的,定期间隔评估适合纵向数据收集,从而导致偏差分析方法占缺失的数据(除非Pullenayegum Lim, 2016;Lokku et al ., 2021)。第三,使用电子健康档案数据的研究中,测量误差无处不在,特别是当使用NLP从复杂的自由文本中提取信息。虽然NLP通常是为了改进结构化数据的缺点,错误分类仍然存在。特别是复杂的变量如纵向住房的结果。
在快速安置背景下,被迫搬迁取得中等精度(平均阳性预测值和灵敏度为65.3和68.1,分别)和专家注释器实现适度inter-annotator协议(科恩Kappa = 0.7) (查普曼et al ., 2021),展示任务的复杂性。住房状态分类的准确性可以改善通过结合NLP与其他EHR分类变量(例如,icd - 10编码)(Gundlapalli et al ., 2015;Peterson和Gundlapalli, 2015年;王et al ., 2016;纳尔逊et al ., 2018;蔡et al ., 2022)。然而,这些数据元素的准确性,以及指标的最佳组合,不是研究,部分原因在于构造一个参考标准的挑战。
我们旨在建立一个“最佳实践”评估纵向不稳定住房使用观测电子健康档案数据作为质量改进计划的一部分,针对VA的格兰特和每日(加仑日)病例管理安置计划(以后,“安置”)。在这个程序中,我们与社区合作无家可归的病例管理服务机构提供6个月的戊肝病毒进行住房转换(例如,从机构设置独立的住房)。对一群安置病人在南加州,我们收集patient-reported住房历史2年时间。然后提取六个指标从VA EHR住房不稳定:临床注意住房分类地位获得使用搬迁为这群(查普曼et al ., 2021);icd - 10编码无家可归;符号无家可归的服务在门诊使用发现访问;住院率与无家可归(例如,住宅治疗项目);一个通用的筛查工具来评估住房不稳定;和数据从弗吉尼亚州的无家可归的注册表。我们比较每一个指标的有效性的住房不稳定,考虑到patient-reported数据作为金标准,并讨论对住房评估干预的意义。
2。材料和方法
2.1。设置和道德
我们组由386 VA患者大洛杉矶从事安置10/1/2019和1/4/2021之间。这个群是参加一个父项目评估的实现关键时刻干预,以证据为基础的,结构化的、有时限的情况下管理实践(赫尔曼et al ., 2000;Gabrielian et al ., 2022)。综述了所有项目活动由弗吉尼亚州的中央机构审查委员会和指定为质量改进。
我们提取病人人口为整个群体包括年龄,种族和种族从行政收集的数据作为安置的一部分。此外,我们发现最近精神和物质使用障碍的诊断使用icd - 10诊断代码来自弗吉尼亚州的国家精神病注册表(打击et al ., 2004)。我们在分析:包括下列条件酒精使用障碍;毒品使用障碍;精神分裂症谱系和其他精神障碍;双相情感障碍;重度抑郁症;焦虑障碍;和创伤后应激障碍。icd - 10编码的完整列表可以在找到补充材料。值得注意的是,我们没有评估存在痴呆或其它主要神经认知障碍(排除标准从这个队列是订婚)的房地产项目;精神发育迟滞(不符合服兵役);或人格障碍(不准确捕捉到弗吉尼亚州行政数据)。诊断代码是今年从门诊病人和住院病人设置检索前病人lookback时期(定义在以下段落)。
2.2。Patient-reported住房的结果
我们招募了一个随机的子组的61名患者的详细电话评估他们的住房状况从7/1/2020和6/30/2022。目标是创建一个参考标准,使细化的EHR方法评估房地产的地位。我们发送招聘信向随机选取的188名退伍军人,19人选择研究。158年剩余的退伍军人收到后续招聘电话和41自愿参与。
口头知情同意后,进行了评估与居住时间线上遵循(TLFB)库存,确认仪器收集回顾住房状态(门德尔松et al ., 2010)。34个不同的住房类型TLFB分配代码(例如,“在大街上或在其他户外场所”,“自己的公寓或房子”)和每个类型分类四个类别之一:“文字无家可归,”“临时”“稳定”和“制度。“在这些分析中,我们崩溃”文字无家可归”和“临时住房”到一个“不稳定”的类别。除了住院率编码为“医院(医疗),”“机构”代码也被认为是“不稳定。“这意味着短期机构设施,如住宅房地产项目或危机,被认为是不稳定的。
使用标准化的TLFB过程中,参与者报告所有住房的变化状态在指定的时期。我们病人集定义为连续花了“稳定”或“不稳定。“例如,病人稳定住整个期间只有一个情节(即使它们改变地址或搬到一个不同的子类别稳定住房),而一个病人是稳定住然后变得不稳定时期初住其余的段有两个片段。
2.3。EHR住房状况的指标
EHR数据所有的病人在这个子样品是来自弗吉尼亚州的企业数据仓库(CDW),一个国家人口库的诊断,临床的叙述,和其他临床和管理数据。额外的数据来自弗吉尼亚州的无家可归的服务注册中心和车损险有关数据。
2.3.1。NLP系统
我们接收了来自临床的提取住房现状指出用于病人完成电话采访的子集(查普曼et al ., 2021)。搬迁是一个基于规则的系统中实现medspaCy (艾尔et al ., 2021),最初开发从戊肝病毒中提取住房结果参与VA的快速安置计划。规则是手工定义语义的短语和语法模式,相关匹配实体无家可归(例如,“睡在公园里,”“需要避难所”)和住房稳定(例如,“住在一个公寓,”“不担忧房地产”)。然后每个实体与任何语言修饰符如短语表示否定(例如,“没有”)或风险(例如,“担心被驱逐”)。笔记也解析确定临床注意部分,如过去的病史或社会历史。这个上下文信息用于解释每个实体是否指的是病人的住房现状和是否稳定住。基于文本在一份报告中,每个音符的三种住房分配状态分类:“稳定”,“不稳定”,或“未知。这些分类是指的“最后指出,包括一些提及住房或住房讨论病人的历史不稳定但没有明显的声明的病人的住房现状。示例文档的归类为“不稳定”和“稳定”,分别所示图1。
图1。(一)被安置到临床注意分类为“不稳定。“注意状态,病人生活在一个酒店,希望很快进入稳定的住房。HUD-VASH、HUD-Veterans事务支持住房。(B)被安置到临床注意分类为“稳定。“注意提到的病人的历史生活在不稳定的住房,但州病人目前稳定住。
使用一个随机抽取的250名笔记从大群(n= 386),我们定制的新居适合安置住房分类相关的结果。首先,我们确认收到相关临床注意模板和短语VA永久支持住房服务(独立住房金融补贴和支持服务)。虽然被迫搬迁最初分类永久支持住房为“不稳定”,我们概念化永久支持住房是一个积极的(“稳定”)对安置病人的结果。第二,而被迫搬迁优先提到稳定的住房在临床报告中提到无家可归或临时住房,我们修改了文档分类逻辑优先考虑当前提到VA的住宅为戊肝病毒治疗项目(称为住处的);戊肝病毒进行安置,登记在住宅治疗被认为是消极的(“不稳定”)的结果。最后,基于对这个示例的笔记中,我们添加了少量的额外的概念,并不包括在原始搬迁系统(例如,“目前被监禁,”“清醒”)。
我们处理所有笔记提及住房关键词采访患者2年评估期间。楼市的关键词和额外的排除标准描述的相同查普曼et al。(2021)。如果多个notes提及住房存在一天,我们将遇到“不稳定”如果至少有一半的笔记被归类为“不稳定”不包括“未知”笔记。如果只有不到一半是归类为“不稳定”,或者如果没有笔记分类为“稳定”或“不稳定”,住房状态这一天被认为是“稳定”。
2.3.2。结构化电子健康档案数据
我们的人口数据(年龄、性别、种族、种族)的电子健康档案。我们也获得了结构化电子病历系统的数据元素,显示房价不稳定:icd - 10编码行为健康疾病(精神病学诊断和物质使用障碍);门诊管理的数据表明,收据无家可归的服务;住院病人管理数据描述为戊肝病毒进入项目;和一个无家可归的检测工具。下面详细的每个数据元素。特定值设置为每个数据元素中提供补充材料。
icd - 10编码:几个icd - 10编码与门诊或住院病人护理指示无家可归或无家可归的风险(例如,“Z59.0:无家可归,不明”)。我们检索icd - 10编码无家可归或无家可归在研究期间的风险。我们概念化一个病人是不稳定的,如果有一个homeless-associated icd -代码在一个给定的一天。
门诊管理数据:在弗吉尼亚州EHR,门诊临床服务编码的类型。我们确认代码指示利用VA遇到无家可归的服务和被认为是一个不稳定的,如果这些服务的资深收到任何保健。
住院管理:对所有住院人群的研究中,我们确定了住宅为戊肝病毒治疗项目(概念化作为弗吉尼亚州住院率,如在“住处的照顾无家可归的退伍军人(DCHV)计划”)。
无家可归过滤网:无家可归筛查临床提醒(HSCR)是一个仪器送到所有的退伍军人门诊经常屏幕最近的住房不稳定或住房不稳定的风险(蒙哥马利et al ., 2022)。反应这个筛选器保存EHR的结构化数据元素。我们确定了积极回应采访老兵。
2.3.3。无家可归的服务注册中心数据
VA维护行政数据库无家可归的退伍军人的VA或提供的服务它的社区合作伙伴,称为无家可归的服务注册中心(房屋)。我们查询这个数据库登记和出口日期到住房援助计划,认为病人是不稳定住在他们入学。
2.4。分析
2.4.1。TLFB数据
利用TLFB数据,我们计算了计数,百分比的情节,和总个工日花在每个三类:不稳定,稳定,和机构。因为天在机构设置(例如,住院不直接相关的无家可归)将罕见和捕获使用住院病人的管理数据,集分配给这一类被排除在进一步的分析。我们也派生一个二进制变量指标是否病人报道住房不稳定在2年评估在任何时候。我们测量房屋之间的关系不稳定和基线特征(即在任何时候。人口统计变量和精神病诊断)使用逻辑回归模型。
2.4.2。弗吉尼亚州服务使用频率和类型
分析使用EHR数据取决于文档的病人的服务使用,导致缺失的数据时候病人不是与VA的卫生系统。评估模式missingness服务利用率和相应的利率,我们计算的描述性统计遇到的频率,定义为任何住院或门诊电子健康档案记录。我们计算数量和比例的患者,与至少一个遇到个工日,person-months VA数据收集期间。我们也计算平均值和标准偏差的数量每月遇到。评估临床指出讨论住房的数量,我们重复每个计算限于遇到包含笔记被安置到定为“稳定的”或“不稳定。“探索的接触频率是否稳定和不稳定的个体之间的不同,可能会导致偏见的纵向分析,我们通过他们是否分层这些统计数据不稳定数据收集期间。我们视觉特征遇到频率这两组随着时间的推移,通过绘制遇到使用算盘的情节(Lokku et al ., 2021)。
2.4.3。EHR的有效性指标
我们评估每个EHR的准确性指标区分稳定与不稳定的住房。首先,我们计算的比例不稳定住,从来没有不稳定的患者每一指标。指标出现了不到两不稳定住患者排除在后续分析。对于剩下的指标,我们遇到,月标准计算每个指标的敏感性和特异性。为encounter-level性能,我们计算灵敏度期间遇到的比例不稳定住房的一集,这一指标是礼物,和特异性期间遇到的比例稳定集,没有指标。我们考虑每个EHR的单独指标以及不同组合的指标(例如,NLP和icd - 10编码表示房屋不稳定)。引导是用于构造置信区间为90%。
限制测量EHR的性能指标在遇到级别是许多VA访问可能不包括病人的住房状况的文档。例如,访问医疗/外科手术通常不包括住房现状和文档会被算作假阴性encounter-level敏感度。考虑到这一点,我们首先遇到的数据有限,患者至少有一个注意归类为“稳定”或“不稳定”,被迫搬迁;这需要一个显式的NLP住房现状和分类并不等同于没有记录不稳定住房稳定住房。第二,我们patient-months聚合数据。对于每一个病人,病人的住房状况被认为是不稳定的,如果他/她报道一集重叠的不稳定的住房。patient-month被归类为不稳定,如果至少有一半的病人的遭遇在那段时间有不稳定的指标。这个月标准分析仅限于patient-months弗吉尼亚州,至少有一个服务使用。
与电子健康档案数据,房屋数据记录开始和结束日期的服务使用,移除一个病人需要医疗目前确定他们的住房状况。比较家庭与EHR的数据,我们限制房屋记录天患者EHR-recorded遇到,但分别计算个工日的总比例(有或没有一个遇到)使用房屋数据捕获。
3所示。结果
表1总结了人口患者自我报告的提供住房历史(“采访”)与那些没有。采访患者,大多数(63.9%)> 60岁,85.2%为男性。超过半数(54.1%)的非裔美国人。在整个群体中,最常见的精神病诊断是重度抑郁(27.2%)和创伤后应激障碍(24.9%)、小比例的患者证明吸毒的证据(13.2%),酒精使用(16.1%),或精神谱系障碍(4.9%)。
3.1。Patient-reported住房状况
表2总结patient-reported住房集分层制度,不稳定或稳定。大多数群体是稳定住期间检查,大多数患者(n= 56岁,所有患者的91.8%)报告稳定住房期间至少一次,总共35953个工日。更少的(n= 12,19.7%)患者不稳定住至少一次,3803个工日。房地产通常持续时间比集的稳定不稳定的住房(平均486天还是200天)。很少(n= 4,6.6%)患者报告的时间在机构,占总共112个工日。这些112天(推测是住院)排除在后续分析。
住房的逻辑回归模型的系数不稳定在任何时候所示表3。之间没有明显联系住房不稳定和任何人口变量(即。,race, ethnicity, age, or gender) and housing instability, but there was some evidence of higher odds of housing instability for patients diagnosed with one or more psychiatric disorders (odds ratio = 7.85, 90% confidence interval = [1.61, 56.4]), as well as one or more substance use disorders (22.7 [4.75, 146]).
3.2。EHR遇到
大多数(58)患者2年遇见一个人在某一时刻。每月病人经历了不稳定的房产有更多的接触与患者保持稳定住(平均7.0和5.1,比= 1.37)。限制接触笔记提及住房,这个比例略有增加(平均3.6和2.4,比= 1.5)。同样,患者不稳定住房的经验有较高的概率至少有一个遇到在接下来的一个月内。这种差异在访问频率视觉上所示图2,情节访问频率超过1年的研究期间为一个随机选择的子样品12患者没有不稳定的住房(顶部面板)和12个病人报告不稳定的住房(底部)。点代表一个遇到在指定的时间点,与形状代表病人的报道住房状态时(不稳定的接触固体圆圈标记,而稳定的遭遇是由一个“x”标记)。在病人访问频率有明显的变化。不稳定事件的特点是紧密接触的群体,而稳定的时期住房往往是稀疏的更分散,表明这一群体的患者可能与VA医疗系统交互次数少在长期的住房稳定
3.3。EHR的有效性指标
的12个病人报道至少有一个不稳定的居住体验TLFB, 11例(91.6%)有一些文档不稳定的住房在评估期间,虽然1(8.4%)没有任何数据元素指示住房不稳定。NLP, icd - 10编码和门诊管理数据都存在所有这些11个病人,在住院变量和无家可归过滤网都只有1病人使用。大多数患者(8/12,66.7%)不稳定的住房体验被记录在家里收到了无家可归的服务。
我们检查了遇到,月标准NLP的敏感性和特异性,icd - 10编码,门诊数据,和家庭,以及结构化的电子健康档案数据和NLP的组合。表4显示了个人的业绩指标,NLP和icd - 10编码的组合,组合NLP和任何结构化数据,包括VA-specific数据元素;数据被限制个工日和几个月病人VA相遇的地方。在遇到级别,NLP显示更高的灵敏度(0.197点,引导90% CI =[0.143, 0.251])比icd - 10编码(0.098[0.039,0.157])和门诊数据(0.102[0.074,0.129]),但敏感性低于房屋(0.268 [0.076,0.459])。引导敏感性的置信区间宽由于小数量的不稳定安置病人最宽的置信区间观察房屋数据(即由于高主客体之间变化。,只有66.7%的不稳定住患者在注册表中)。房屋Encounter-level特异性最高(0.969[0.947,0.990])和门诊数据(0.967[0.950,0.983]),和更低的NLP(0.948[0.936, 0.960])和icd - 10编码(0.943 [0.922,0.964])。
当遇到笔记有关住房有限,NLP灵敏度最高(0.689[0.595,0.782])和最低的特异性(0.658 [0.599,0.717])。其他三个指标每看到增加的敏感性和特异性降低,虽然变化比NLP是那么极端。当聚合月水平,NLP再次看到最高的灵敏度(0.421 [0.313,0.529])。房屋encounter-level敏感性最高,最低灵敏度patient-month水平(0.254[0.082,0.427])由于高百分比的病人(66.7%)没有捕获在这个数据集。icd - 10编码灵敏度最低最低(0.298[0.207,0.389])和特异性(0.858 [0.809,0.907])。
三个结构要素的综合措施使用任何更高的灵敏度和特异性低于任何结构化元素在每个级别的分析。类似的模式观察当使用NLP或任何结构化数据。住房要求NLP和结构化电子健康档案数据不稳定实现低敏感性和特异性高于NLP或家庭单独但保持敏感性以及特异性高于当只使用icd - 10编码和门诊管理数据。
所有个工日在评估期间无论病人遇见一个人,家里有一个敏感性0.2[0.067,0.335]和特异性0.971 [0.954,0.996]。灵敏度达到人天级别使用的结合这三个EHR指标(即。,patients having at least one of NLP, ICD-10, or outpatient administrative data) was 0.06 [0.03, 0.08], showing an advantage of using HOMES administrative data that did not require patients to present for care.
4所示。讨论
我们比较patient-reported住房历史和临床和行政数据就住房状态为一群homeless-experienced VA患者。我们的目的是比较不同的数据元素来确定最佳实践的有效性评估纵向住房使用EHR数据结果。在小数量的患者经历了住房不稳定在我们的群体中,大多数人EHR他们的住房状况的文档。使用NLP补充标准结构化数据元素的信息记录在临床指出NLP导致纵向住房更完整的评估结果。这是一个重要的发现与方法学对优化的有效性评估病人的纵向住房使用EHR数据结果数据收集患者的立场时由于样本大小或资源约束并不可行。
在这些分析,敏感性和特异性不同EHR提取方法。NLP通常有更高的敏感性比结构化电子健康档案数据捕捉重复出现的住房不稳定,但特异性表现低于一些结构化的元素。icd - 10编码,通常用于流行病学研究、敏感性和特异性较低比其他指标,包括NLP。结合NLP和icd - 10编码但特异性降低敏感性增加。这些发现建立在之前与搬迁一个截然不同的群体的VA患者从事快速安置(查普曼et al ., 2021);在patient-month层面,分析提供证据表明,安置了执行比icd - 10编码在测量房屋不稳定。
VA EHR包含记录的数据元素不稳定住房,是独一无二的。特别是,门诊管理比NLP数据有更高的特异性和灵敏度高于icd - 10编码。这三个元素的组合可以用来调整定义来提高敏感性和特异性适合一个特定的群体或分析。此外,虽然遇到——和月份层性能不同的在不同的数据元素,患者的立场敏感性是同样高的NLP, icd - 10编码,和门诊管理数据,表明结构化数据可能足以构建粗住房不稳定的定义(例如,识别患者的历史房屋在任何时候不稳定)。
当患者接受服务记录在房屋,这些集住房不稳定与高敏感性和特异性被抓获。然而,这个数据集不捕获的一个重要部分的人口脱离VA无家可归的服务;我们的数据表明,质量改进领导和研究人员利用房屋评估房地产的结果应该考虑补充这个数据与电子健康档案数据元素。这些发现之前并行工作(蔡et al ., 2022无家可归在VA)估计患病率比较,发现利用多个电子健康档案数据元素可以提高住房的确定不稳定。
当决定如何定义住房使用EHR数据不稳定,我们建议具体分析目标和底层的住房不稳定被考虑。分析研究人群患病率较低的住房不稳定,我们已经在这里,可以要求高特异性,避免大量的假阳性。可以提高特异性要求多个数据元素表明住房不稳定或支持更具体的数据元素。当高灵敏度较好、使用NLP或多个数据元素的结合可能更有效。还应该关注缺失的数据,如电子健康档案数据取决于病人护理。病人经历住房不稳定可能使用保健更加频繁,导致不平衡程度的观察对稳定和不稳定的病人。为了避免偏见的结果,纵向分析住房不稳定使用EHR数据应该考虑利用调整方法对缺失数据和不规则的观察(林et al ., 2004;Pullenayegum Lim, 2016;Pullenayegum Scharfstein, 2022)。
这项工作有一定的局限性。首先,我们执行这些探索性分析小样本,因此我们统计分析低功率。无论如何,详细patient-reported住房历史我们获得患者在两年的时间里无家可归的经验是一种宝贵的观测数据集和我们的研究结果将为未来的工作。对于任何使用patient-reported数据回顾分析,有可能召回或招聘偏见在我们的样例。采访患者略有不同的种族(也就是。,interviewed patients were more likely to be African-American than the rest of the cohort and less likely to be Hispanic/Latino). They had similar distributions of psychiatric and substance use diagnoses, although the reported proportions only represent patients receiving clinical services related to these conditions and may not be reliable due to the inaccuracy of ICD-10 coding. To check for possible differential housing instability, we compared the EHR documentation of housing instability between interviewed and non-interviewed patients and found the two groups to be similar in terms of the frequency of documented housing instability, offering some assurance against recruitment bias; however, such bias remains a possibility. Second, we treated each indicator of housing instability as dichotomous. However, accuracy may be improved by factoring information such as the number of notes processed by the NLP during a single encounter or different levels of structured data (e.g., ICD-10 codes indicating risk of homelessness vs. literal homelessness). Third, we examined a cohort of VA patients from one geographic area enrolled in a particular housing program. The observed patterns here of housing instability and EHR documentation may not generalize to other cohorts of Veterans or to populations outside of the VA, who demonstrate different demographic characteristics and documentation patterns. However, documentation of housing and other SDoH is common in clinical texts, and ICD-10 codes are widely used across healthcare systems. We demonstrated here that ReHouSED could be tailored for a new cohort and analysis task, and other work has demonstrated the feasibility of customizing NLP systems developed in VA to be applied in other settings (查普曼et al ., 2022)。此外,分析了使用数据从弗吉尼亚州的遗留EHR, VISTA,计划被欧洲核子研究中心所取代。未来的工作应该比较这些研究结果和数据在欧洲核子研究中心,以确保持续的数据质量和精度。
5。结论
纵向住房状况是一个病人经历了无家可归的重要结果。61年样本homeless-experienced VA患者病例管理计划,我们发现房地产状况记录纵向的EHR使用多个结构化和非结构化数据元素。使用NLP从临床中提取信息笔记能提高敏感度评估房地产的结果,同时结合多个EHR的住房不稳定达到更高的特异性指标相比,单一的指标。未来的工作可以定制搬迁处理临床弗吉尼亚州文本内外不同的患者人群,增强其他EHR元素。类似的方法也可以用来评估其他SDoH变量使用NLP纵向。
数据可用性声明
在本文中给出的数据并不容易获得,因为由于敏感和保护这些数据的性质,作者无法使它向公众开放。请求访问数据集应该指向alec.chapman@hsc.utah.edu。
道德声明
涉及人类受试者的研究回顾和VA中央机构审查委员会批准美国退伍军人事务部。书面知情同意参与这项研究并不需要按照国家法律和制度需求。
作者的贡献
交流了概念化、研究设计、NLP系统开发、数据管理、数据分析、系统评价和手稿准备。KCo和SG导致了概念化、研究设计、数据管理、系统评价和手稿准备。SC、TP和DA导致概念化,研究设计,数据管理、主数据收集,和手稿准备。新泽西了概念化、研究设计、数据分析,和手稿准备。氯化钾和JT导致了数据管理和手稿准备。RN,导致概念化、研究设计、NLP系统开发、数据管理和手稿准备。英孚了概念化、研究设计和手稿准备。所有作者的文章和批准提交的版本。
资金
本研究支持QUERI-VISN(质量增强研究Initiative-Veterans综合服务网络)合作实施计划(PII) 21 - 285(多个主要调查人员:Gabrielian Cordasco,芬利)。
的利益冲突
作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。
出版商的注意
本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。
补充材料
本文的补充材料在网上可以找到:https://www.雷竞技rebatfrontiersin.org/articles/10.3389/frai.2023.1187501/full补充材料
引用
打击,f . C。,McCarthy, J. F., Valenstein, M., Austin, K., and Gillon, L. (2004).照顾退伍军人和退伍军人健康管理局精神病,财政年度04,6日。一年一度的全国精神病注册中心报告。
Botsis, T。,Hartvigsen, G., Chen, F., and Weng, C. (2010). Secondary Use of EHR: sata Quality Issues and Informatics Opportunities.AMIA Jt。峰会Transl。科学。Proc。2010年,1 - 5。网上:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3041534/(2023年5月12日通过)。
查普曼,a, B,彼得森,k . S。拉特E。纳韦尔,M。张,M。应,J。,et al. (2022). Development and evaluation of an interoperable natural language processing system for identifying pneumonia across clinical settings of care and institutions.JAMIA开放5,114。doi: 10.1093 / JAMIAOPEN / OOAC114
查普曼,a, B。琼斯,。,Kelley, A. T,, Jones, B., Gawron, L., Montgomery, A. E., et al. (2021). ReHouSED: a novel measurement of veteran housing stability using natural language processing.j .生物医学。通知。122年,103903年。doi: 10.1016 / j.jbi.2021.103903
康威,M。,Keyhani, S., Christensen, L., South, B. R., Vali, M., Walter, L. C., et al. (2019). Moonstone: a novel natural language processing system for inferring social risk from clinical narratives.j .生物医学。Semant。10日,198年。doi: 10.1186 / s13326 - 019 - 0198 - 0
艾尔,H。,查普曼,a, B。,和和Peterson, K. S. Launching into clinical space with medspaCy: a new clinical text processing toolkit in Python.AMIA物质。计算机协会。Proc。(2021)。网上:https://arxiv.org/abs/2106.07799
Gabrielian, S。,Finley, E. P., Ganz, D. A., Barnard, J. M., Jackson, N. J., Montgomery, A. E., et al. (2022). Comparing two implementation strategies for implementing and sustaining a case management practice serving homeless-experienced veterans: a protocol for a type 3 hybrid cluster-randomized trial.实现。Sci。17日,论文。doi: 10.1186 / s13012 - 022 - 01236 - 1 /表/ 5
Glicksberg, b S。约翰逊,k W。,和Dudley, J. T. (2018). The next generation of precision medicine: observational studies, electronic health records, biobanks and continuous monitoring.哼摩尔。麝猫。27日,R56-R62。doi: 10.1093 /物流/ ddy114
Gundlapalli, a . V。、卡特、m E。帕默,M。、“T。Redd计划,。,Pickard, S., et al. (2013). Using natural language processing on the free text of clinical documents to screen for evidence of homelessness among US veterans. AMIA.年度研讨会论文集/ AMIA AMIA研讨会研讨会。2013年,537 - 546。
Gundlapalli, a . V。,Fargo, J. D, and Metraux, S. (2015). Military misconduct and homelessness among US veterans separated from active duty, 2001–2012.JAMA-J。点。医学协会。。314年,832 - 834。doi: 10.1001 / jama.2015.8207
Hatef E。,Rouhizadeh, M., Nau, C., Xie, F., Rouillard, C., Abu-Nasser, M., et al. (2022). Development and assessment of a natural language processing model to identify residential instability in electronic health records' unstructured data: a comparison of 3 integrated healthcare delivery systems.JAMIA开放5,1 - 10。doi: 10.1093 / jamiaopen / ooac006
赫尔曼,D。,Opler, L., Felix, A., Valencia, E., Wyatt, R. J., Susser, E. A., et al. (2000). critical time intervention with mentally ill homeless men: impact on psychiatric symptoms.j . Nerv。表示“状态”。说。188年,135 - 140。doi: 10.1097 / 00005053-200003000-00002
林,H。,Scharfstein, D. O., and Rosenheck, R. A. (2004). Analysis of longitudinal data with irregular, outcome-dependent follow-up.j .皇家。统计,Soc。B系列。66年,791 - 813。https://www.jstor.org/stable/3647506(2023年5月12日通过)。
Lokku,。,Birken, C. S., Maguire, J. L., and Pullenayegum, E. M. (2021). Summarizing the extent of visit irregularity in longitudinal data.Int。j . Biostatist。3、1 - 9。doi: 10.1515 / ijb - 2020 - 0144
Lybarger, K。,Yetisgen, M., and Uzuner, Ö. (2023). The 2022 n2c2/UW shared task on extracting social determinants of health.j。地中海。备用。协会。2023年,ocad012。doi: 10.1093 /地点/ ocad012
门德尔松,T。,Turner, A. K., and Tandon, S. D. (2010). Measuring homelessness and residential stability: the residential time-line follow-back inventory. i.Commun。Psychol。38岁,607 - 621。doi: 10.1002 / jcop
蒙哥马利,a E。法戈,j . D。伯恩,t·H。凯恩,V。,和Culhane, D. P. Universal Screening for Homelessness Risk for Homelessness in the Veterans Health Administration. (2022). Available online at:http://www.ajph.org(12月11日访问,2022)。
纳尔逊,r E,锁,Y, Pettey, W, Vanneman, M,蒙哥马利,a, E,和伯恩,t (2018)。成本与医疗相关的服务访问通过VA和社区医疗保险为退伍军人无家可归。健康服务Res。。53岁,5352 - 5374。doi: 10.1111 / 1475 - 6773.13054
彼得森,R。,和Gundlapalli, A. (2015). Identifying homelessness among veterans using VA administrative data: opportunities to expand detection criteria.《公共科学图书馆•综合》。1 - 14。doi: 10.1371 / journal.pone.0132664
Pullenayegum, e . M。,和Lim, L. S. H. (2016). Longitudinal data subject to irregular observation: a review of methods with a focus on visit processes, assumptions, and study design.统计方法地中海。Res。25日,2992 - 3014。doi: 10.1177 / 0962280214536537
Pullenayegum, e . M。,和Scharfstein, D. O. (2022). Randomized trials with repeatedly measured outcomes: handling irregular and potentially informative assessment times.论文。牧师。44岁,121 - 137。doi: 10.1093 / epirev / mxac010
蔡,J。,Szymkowiak, D., and Jutkowitz, E. (2022). Developing an operational definition of housing instability and homelessness in Veterans Health Administration's medical records.《公共科学图书馆•综合》。17日,e0279973。doi: 10.1371 / journal.pone.0279973
王,L。,Ruan, X., Yang, P., and Liu, H. (2016). Comparison of three information sources for smoking information in electronic health records.癌症的通知。15日,237 - 242。doi: 10.4137 / CIN.S40604
关键词:无家可归、电子健康记录,自然语言处理,退伍军人事务部,健康问题社会决定因素
引用:查普曼AB, Cordasco K, Chassman年代,Panadero T,阿甘D,杰克逊N,克莱尔K,纳尔逊R,蒙哥马利AE,蔡J,芬利E和Gabrielian年代(2023)评估纵向住房使用电子健康记录数据状态:自然语言处理的比较,结构化数据,patient-reported历史。前面。Artif。智能。6:1187501。doi: 10.3389 / frai.2023.1187501
收到:2023年3月22日;接受:2023年5月05;
发表:2023年5月24日。
编辑:
若昂伽马品牌,先涛公司Hospitalar Psiquiatrico de葡京,葡萄牙版权Cordasco©2023查普曼,Chassman Panadero,阿甘,杰克逊,克莱尔,尼尔森,蒙哥马利,蔡,芬利和Gabrielian。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。
*通信:亚历克·b·查普曼alec.chapman@hsc.utah.edu