一种用于评估随机临床试验在真实世界人群中应用价值的新型数字孪生策略

时间：2026年3月9日

来源：npj Digital Medicine

编辑推荐：

随机对照试验（RCTs）的普适性常受限于人群差异。为此，研究人员开发了一种统计信息驱动的生成对抗网络模型（RCT-Twin-GAN），以构建能够匹配目标人群特征分布的RCT数字孪生，旨在跨人群模拟RCT的治疗效应。研究者成功复现了SPRINT与ACCORD试验的异质性结果，并将此方法应用于电子健康记录（EHR）的真实世界人群，验证了其评估RCT结果外部有效性的潜力。该研究为个性化评估临床试验结果的适用性提供了新工具。

在当今循证医学的框架下，随机对照临床试验（Randomized Controlled Trials, RCTs）是评估医疗干预措施有效性的“金标准”，为临床指南的制定提供了核心依据。然而，一个长期存在的核心困境在于：在严格控制的理想条件下得出的RCT结论，是否能够安全、有效地推广到现实世界中千差万别的患者身上？这种关于研究结果“外部有效性”（external validity）或“普适性”（generalizability）的疑问，始终是连接临床试验证据与真实世界临床实践之间的一道关键鸿沟。例如，在心血管领域，针对强化降压能否带来心血管获益，两项标志性试验——收缩压干预试验（Systolic Blood Pressure Intervention Trial, SPRINT）和糖尿病心血管风险控制行动（Action to Control Cardiovascular Risk in Diabetes, ACCORD）血压试验——却得出了看似矛盾的结果。这种差异可能源于试验纳入人群基线特征的不同，凸显了评估特定治疗在不同人群间效果平移的必要性与复杂性。

为了更科学地探究RCT结果在不同人群间的“旅行”能力，一项发表于《npj Digital Medicine》的研究提出了一种创新的“数字孪生”策略。该研究旨在解决如何量化评估一项RCT的结论适用于另一个特定人群（如另一项RCT的队列或真实世界人群）时的预期效果。研究人员构想，如果能为一项现有的RCT创建一个“数字孪生”——一个在统计学上与其原始试验等效，但患者特征分布却与目标人群相匹配的虚拟队列，那么通过比较原始RCT结果与“数字孪生”在该目标人群条件下模拟出的结果，就能直观评估治疗效应在不同人群间的稳定性和可移植性。基于此，研究团队开发了名为“RCT-Twin-GAN”的模型，其核心目标即是生成这种条件化的数字孪生，从而模拟RCT衍生治疗效应在不同患者群体间的转化。

为了开展这项研究，作者主要应用了几个关键技术方法。首先是开发了RCT-Twin-GAN这一核心模型，它是一个统计信息驱动的生成对抗网络（Generative Adversarial Network, GAN），其特点是能够学习并利用原始RCT中协变量（患者特征）与临床结局之间的复杂关系。其次，研究人员运用了来自两项著名心血管RCT（SPRINT和ACCORD试验）的公开患者数据作为验证队列，以重现已知的治疗效应差异。再者，为了将方法拓展至更广泛的应用场景，研究还整合了来自一个大型学术医疗中心的电子健康记录（Electronic Health Record, EHR）数据，构建了一个真实世界的高血压患者队列，用于模拟外部验证。

研究结果部分通过一系列分析验证了该方法的可行性与价值：

1. RCT-Twin-GAN generates digital twins that reproduce the covariate-specific relationships learned from the RCT. （RCT-Twin-GAN能够生成重现从RCT中学到的协变量特定关系的数字孪生。）

研究者首先证实，RCT-Twin-GAN生成的数字孪生能够成功捕捉并复现原始RCT数据中协变量与结局之间的内在关联。更重要的是，在数字孪生的干预组和对照组之间，所有协变量的分布都达到了出色的平衡，其均值绝对标准化均值差（mean absolute standardized mean difference, MASMD）低至0.019（标准差0.018），这确保了任何观测到的结局差异可更可靠地归因于治疗效应而非混杂因素。

2. RCT-Twin-GAN conditions the RCT on the covariate distribution of a target population. （RCT-Twin-GAN能够根据目标人群的协变量分布对RCT进行条件化生成。）

这是该研究的核心演示。当使用ACCORD试验人群的协变量分布作为条件，来生成SPRINT试验的数字孪生（即SPRINT-Twins）时，这些数字孪生的特征分布与ACCORD人群的相似度（MASMD 0.0082）远高于与其原始SPRINT人群的相似度（MASMD 0.46）。这证明模型成功地将原始RCT的“因果结构”移植到了目标人群的“特征轮廓”上，创造了既具备SPRINT试验内部关系、又拥有ACCORD人群外表特征的虚拟队列。

3. Treatment effects from RCTs are reproduced by their digital twins. （RCT的治疗效应可被其数字孪生复现。）

模型的有效性在重现历史结果上得到验证。以前文提到的SPRINT和ACCORD试验为例，当用ACCORD条件化的SPRINT数字孪生进行分析时，它重现了SPRINT原始试验中观察到的显著心血管获益（风险比0.75）。反之，用SPRINT条件化的ACCORD数字孪生，则重现了ACCORD原始试验中不显著的结果（风险比0.88）。这表明数字孪生能够忠实反映原始试验在其自身人群中的结论。

4. Digital twins enable translation of RCT-derived treatment effects to a target population. （数字孪生能够实现RCT衍生治疗效应向目标人群的转化评估。）

这是方法应用的关键一步。当研究者将SPRINT试验通过数字孪生“平移”到ACCORD人群条件下进行评估时，模拟出的治疗效应（风险比0.79）与其在原始SPRINT人群中的效应（0.75）相近但仍略有不同。同样地，将ACCORT试验“平移”到SPRINT人群条件时，模拟效应（0.87）也与原始ACCORD结果（0.88）相似。这种细微差异可能揭示了治疗效应在不同特征人群间实际存在的异质性，为理解试验间差异提供了量化视角。

5. RCT-Twin-GAN estimates treatment effects for a real-world EHR population. （RCT-Twin-GAN可估计真实世界EHR人群的治疗效应。）

最后，研究将RCT-Twin-GAN应用于一个来自EHR的真实世界高血压患者队列，分别评估了SPRINT和ACCORD两种降压策略在该人群中的模拟效果。结果显示，对于这个真实世界人群，基于SPRINT条件的模拟显示出显著的潜在获益趋势，而基于ACCORD条件的模拟则未显示显著效应。这示范了该方法如何被用于预估某项临床试验的结论在特定本地化真实世界人群中的可能表现，从而辅助个体化医疗决策和临床实践指南的本地化适配。

在结论与讨论部分，该研究强调，RCT-Twin-GAN框架为系统评估RCT结果的普遍适用性提供了一个强大的新工具。它超越了传统亚组分析或统计加权方法，通过生成与目标人群特征匹配的、保持原始试验因果结构的数字孪生，实现了治疗效应的跨人群“翻译”模拟。这项工作的重大意义在于，它架起了一座连接严格控制的临床试验环境与复杂多变的真实世界应用场景之间的桥梁。通过这种方法，临床研究者、医疗政策制定者及医生能够更具体、更量化地预判：对于一个具有特定特征的新患者群体，某项基于RCT的成熟疗法可能带来多大程度的获益。这不仅有助于理解不同临床试验之间产生矛盾结论的原因，更能推动循证医学向更精准、更个体化、更注重外部有效性的“现实世界证据”时代迈进，最终使医学研究证据能更安全、更有效地惠及每一位具体的患者。