综述:临床与流行病学研究中选择真实世界数据:来自NHIRD和TriNetX的方法学经验——一篇叙述性综述

时间:2026年1月22日
来源:Annals of Medicine

编辑推荐:

本综述系统比较了台湾全民健康保险研究数据库(NHIRD)与跨国联合电子健康记录网络TriNetX两大真实世界数据(RWD)平台,详细阐述其结构特征、方法学优势与局限,并针对常见研究挑战提出实用策略(如细化入排标准、使用代理变量及外部数据三角验证),为研究者依据具体科学问题(如疾病流行病学、药物疗效比较)选择适宜数据源、优化研究设计以生成可靠真实世界证据(RWE)提供关键指导。

广告
   X   

在当今医学研究领域,利用真实世界数据(RWD)生成真实世界证据(RWE)已成为随机对照试验(RCT)的重要补充。RWD源于日常医疗实践,包括电子健康记录(EHR)、保险理赔数据、患者登记库等,能反映更广泛、更真实的患者群体情况,尤其在评估长期结局、研究罕见病或特殊人群(如老年人、孕妇)方面具有独特价值。本篇综述聚焦于两个广泛应用但结构迥异的RWD源——台湾的全民健康保险研究数据库(NHIRD)和全球性的TriNetX网络,通过对比其特性、优势、局限及适用场景,为研究者提供方法学上的借鉴。
台湾的NHIRD
NHIRD源自台湾单一支付方的全民健康保险体系,自1995年启动以来,覆盖了超过99%的台湾居民(约2300万人),是一个基于全人口的理赔数据库。其数据经过脱敏和加密处理,研究人员需在卫生福利资料科学中心(HWDC)的受控环境中访问,无法直接提取数据。NHIRD的核心优势在于其近乎完整的全人口覆盖,最大限度地减少了选择偏倚,并支持长期、连续的纵向分析。数据库包含丰富的结构化数据,如患者人口统计学信息、基于国际疾病分类第九版(ICD-9-CM)和第十版(ICD-10-CM)的诊断编码、处方记录、手术和操作编码、医疗资源使用情况以及详细的医疗费用数据。此外,NHIRD还可与实验室数据库(NHILD)、癌症登记、死亡档案等其他生物医学数据集进行链接,拓展了研究维度。
NHIRD的局限性主要源于其设计初衷和地域范围。作为行政理赔数据库,其诊断编码可能受报销政策影响(如“upcoding”)。数据更新通常按年进行,存在时滞,不利于研究新兴疾病或新批准疗法。其数据主要反映台湾地区的医疗实践和人群特征,限制了结果向其他医疗体系或种族的推广。此外,缺乏生活方式因素(如吸烟、饮酒)、详细的实验室结果、影像学发现等临床细节。分析NHIRD需要研究者具备较强的编程能力以编写自定义代码。
TriNetX网络
TriNetX是一个全球性的协作健康研究平台,截至2025年12月,它整合了来自20多个国家、170多个医疗保健组织(HCO)的超过2亿患者的去标识化、近乎实时的EHR数据。其运作模式是参与HCO贡献数据以换取使用平台分析工具和参与行业赞助研究的机会。TriNetX严格遵守HIPAA、GDPR等数据隐私法规,通过日期偏移等技术保护患者隐私,同时保留事件间的相对时间关系。
TriNetX的优势在于其庞大的、多样化的跨国人群样本,提供了强大的统计效能,即使是研究极罕见暴露或结局也成为可能。数据更新频繁(每1-4周),非常适合监测新兴疾病(如COVID-19大流行期间的表现)或新疗法的使用情况。平台集成了 demographics、诊断、 procedures、药物、实验室结果(使用LOINC编码)乃至基因组学数据。通过自然语言处理(NLP)和大型语言模型(LLM)技术,还能从非结构化的临床文本(如医生笔记)中提取信息,极大地丰富了数据深度。TriNetX提供用户友好的分析界面,内置队列选择、倾向评分匹配、Kaplan-Meier生存分析等工具,降低了临床研究者进行复杂分析的门槛。
TriNetX的局限性包括:由于其数据来源于自愿参与的HCO,存在医院选择偏倚的风险,且患者在该网络外的诊疗信息会缺失,可能导致随访不完整(出现左、右或区间删失)。不同国家/地区的医疗实践和编码规范存在异质性,可能影响数据一致性和可比性。尽管数据总量庞大,但某些关键细节(如精确的诊断日期、医师专业、药物总剂量和疗程、纵向实验室数值、家庭层面信息)可能稀疏或缺失。在美国以外地区,分析通常需通过其固定的分析界面进行,灵活性受限,且无法直接链接外部数据集。
比较优势与局限
两者共享RWD的普遍优势:成本效益高、统计效能强、支持亚组分析、更好地反映真实临床实践。但各有侧重:
  • NHIRD的独特优势:全人口覆盖、最小化选择偏倚、数据编码标准化、可链接其他政府数据库、提供更精细的管理细节(如精确日期、医师专业、处方剂量和时长)、分析灵活性高。
  • TriNetX的独特优势:样本量大且人群多样、包含丰富的临床变量(生命体征、实验室结果)、近乎实时更新、支持跨国比较、用户界面友好、具备NLP/LLM增强的数据提取能力。
两者共同的局限包括:观察性性质无法确立因果关系、数据可能存在编码错误或缺失、缺乏患者报告结局和生活方式等变量、存在未测量混杂因素、以及“大数据悖论”(即大数据可能放大虚假关联)的风险。
应对局限的策略
针对共性问题,可采取多种方法提升研究质量。虽然无法证明因果关系,但应用Hill准则(如关联的一致性、生物学梯度)或采用“目标试验仿真”框架可加强因果推断。通过细化病例定义(如要求多次诊断编码)、使用代理变量(如用后期药物处方指示疾病严重程度,用特定诊断编码反映吸烟、饮酒或社会经济状况)来改善数据准确性和弥补变量缺失。对于观察性研究中不可避免的中间事件(ICE),可参考ICH E9(R1)估计量框架,明确定义研究问题,并预设分析策略(如治疗策略法、复合终点法、在治疗期间法、假设法或主分层法)。限制研究人群、应用匹配技术、进行亚组分析和多重敏感性分析有助于控制混杂和评估结果稳健性。
针对特定数据库的策略:
  • NHIRD:通过与区域或国际数据集比较验证结果来增强普适性;采用更严格的病例定义(如结合支持性检查或治疗)减少“upcoding”影响;利用临床行为作为代理指标(如频繁复查提示异常);链接台湾其他数据库(如生物样本库、癌症登记、空气质量数据)补充缺失信息。
  • TriNetX:聚焦数据质量更一致的HCO子集;利用队列级汇总统计了解代表性;进行按地区或患者特征的分层分析;与外部数据库交叉验证;明确定义观察窗口以减少开放网络系统的缺失数据偏倚;利用平台内置工具高效进行敏感性分析。
适用性比较举例:以银屑病关节炎风险研究为例
通过“结构化流程识别适用性数据”(SPIFD)工具评估一个具体研究问题(例如,比较不同作用机制的生物制剂对银屑病患者新发银屑病关节炎PsA的风险)时,虽然NHIRD和TriNetX都能满足基本设计需求(如准确定义治疗开始、识别银屑病和PsA),但TriNetX可能更具优势,因为它包含超出特定报销标准的生物制剂使用者数据,更新更快(能纳入新药),访问和分析周期更短。
未来展望
未来,结合NHIRD的人口级覆盖优势和TriNetX的大样本、多临床变量优势进行整合分析,有望克服单一数据源的局限。这种整合可用于交叉验证结果、开发预测算法、模拟疾病轨迹以及进行更细致的卫生经济学评估,从而生成更具普适性的证据,为不同医疗系统下的个性化诊疗和卫生政策制定提供支持。
结论
NHIRD和TriNetX是互补的真实世界数据源,各有其鲜明的特点、优势和不足。研究者应根据具体的研究目标和问题,选择最合适的数据平台,并应用恰当的方法学策略应对其固有局限。通过理解数据库特性、优化研究设计、甚至整合多种数据源,能够更有效地利用RWD产生稳健、有意义的临床证据,最终服务于患者护理和卫生决策的改善。随着数据质量的持续提升和分析技术的不断进步,真实世界数据的潜力将得到更充分的发挥。

生物通微信公众号
微信
新浪微博


生物通 版权所有