数字真实世界数据(RWD)的可访问性不断提高,以及人工智能(AI)和机器学习(ML)技术的快速发展,极大地激发了利用RWD进行临床研究和生成真实世界证据(RWE)的兴趣[1]。电子健康记录(EHR)通过捕获来自不同医疗环境中的数百万临床数据点,成为RWD的重要来源[2]、[3]。EHR的广泛采用从根本上改变了RWE的生成方式,使研究人员能够以前所未有的规模和速度描述患者群体、估计治疗结果并预测预后[4]。鉴于这一潜力,美国食品药品监督管理局(FDA)逐渐将基于EHR的RWE纳入药物开发、上市后监测和治疗安全性评估的监管决策中,尤其是在《21世纪治愈法案》中明确强调了使用RWE之后[5]、[6]。随着全球医疗系统的数字化转型,基于EHR的RWE已成为支持临床指南制定、健康技术评估和持续学习健康系统的重要组成部分[7]。
尽管RWE研究的数量不断增加,但系统地研究数据转换生命周期中偏见是如何引入和传播的这一问题仍基本未被解决。现有的偏见主要通过分析阶段的统计调整来处理[8]、[9]、[10]。大规模观察性研究往往容易受到从临床护理到研究分析整个过程中存在的固有偏见和未测量混杂因素的影响[11]。先前的研究表明,数据相关偏见源于信息缺失、不完整、不一致或记录不当,以及特定人群在医疗系统中的代表性不足或过度代表,这些因素会影响研究结果并限制研究结果的可靠性[8]、[9]。进一步的研究表明,人为偏见源于医疗提供者的行为,包括不同的文档记录实践、隐含的社会刻板印象以及临床决策模式的变化,这些都会使医疗数据中的偏见解释变得更加复杂[11]。此外,医疗保健获取的差异也被证明会引入转诊和入院偏见,导致不同人群之间的疾病严重程度和结果存在系统性差异[11],这表明RWD中的偏见具有复杂和多维的性质。
已经开发了一些专注于EHR生成生命周期中偏见的框架,但这些框架仍然缺乏一种统一的方法来全面记录偏见的起源及其对联合医疗研究有效性的影响[8]、[10]。TRANSFoRm数据流框架仅说明了在护理提供与重新使用EHR数据的应用程序之间的数据流过程中偏见是如何产生的,识别了数据链不同步骤中可能导致分析结果无效的13个可能的偏见来源[12]。同样,Ban等人仅关注于生成RWE的路径中发生的偏见分类,区分了提供护理和记录的医疗系统层面,以及提取、转换和加载(ETL)和数据解释过程中出现偏见的研发层面[13]。因此,现有框架尚未完全解决与联合学习等分析方法相关的偏见问题,而这些方法需要跨机构的数据协调和标准化来支持互操作性。此外,现有文献中系统地研究从临床环境中的初始数据捕获到数据整理、标准化和分析建模整个路径中偏见传播的多维视角仍然有限。
为了解决这些不足,我们构建了一个概念框架,详细描述了从床边临床遭遇到研究证据生成的全部数据生成生命周期,并通过范围审查构建了一个全面的偏见来源分类体系。利用分层分类方案(→ 领域 → 具体来源),我们识别并分类了框架每个层面的记录偏见来源,为研究人员提供了理解使用EHR数据的大规模观察性研究中偏见多方面性质的参考。