电子健康记录表型风险评分与多基因评分的跨生物样本库泛化性及准确性比较

时间:2025年8月28日
来源:Nature Genetics

编辑推荐:

本研究通过比较电子健康记录(EHR)衍生的表型风险评分(PheRS)与多基因评分(PGS)在13种常见疾病中的预测性能,揭示了二者在疾病风险分层中的互补价值。基于芬兰(FinnGen)、英国(UKB)和爱沙尼亚(EstB)三大生物样本库的84.5万例数据,研究证实PheRS能有效跨医疗系统泛化,且与PGS仅呈中度相关(平均r=0.02)。联合模型在8种疾病中显著提升预测效能(如痛风HR=1.59,P<0.05),为整合临床与遗传信息提供了循证依据。

广告
   X   

研究概述

这项横跨芬兰、英国和爱沙尼亚三大生物样本库的研究,纳入了845,929名32-70岁个体,通过10年观察期(1999-2009年)的电子健康记录(EHR)和基因组数据,构建了13种常见疾病的表型风险评分(PheRS)与多基因评分(PGS)。研究采用弹性网络模型(elastic-net)训练PheRS,并设置2年洗脱期确保预测独立性。结果显示,PheRS与所有疾病显著相关(P<0.05),其中痛风(HR=1.59)、2型糖尿病(HR=1.49)和肺癌(HR=1.46)关联最强。

PheRS的跨库泛化能力

尽管不同医疗系统的诊断编码差异显著(仅20%的三位phecode在三库中通用),PheRS展现出意外良好的泛化性。例如,爱沙尼亚库(EstB)训练的髋关节炎模型在芬兰库(FinnGen)中仍保持预测效能(HR无显著差异)。关键驱动因素包括高血压(phecode 401)、酒精滥用(317)等跨库一致的强预测因子,而烟草使用障碍(318)等库特异性编码则通过弹性网络的L1/L2正则化实现特征选择。

与PGS的互补性

PheRS与PGS的关联性分析揭示二者正交性:PheRS在抑郁症(MDD)、癫痫等疾病中预测优势显著(c指数提升P<0.05),而PGS在乳腺癌等遗传主导疾病中表现更优。联合模型使8种疾病预测显著改善,如膝关节骨关节炎(OA)的HR从1.32提升至1.48。值得注意的是,PheRS对高风险人群(前10%)的识别能力更强,反映其捕捉关键共病的能力。

临床意义与局限

研究证实EHR数据可弥补PGS的 ancestry依赖性局限,且无需额外检测成本。但当前模型未纳入初级诊疗文本等多元数据,且样本以欧洲裔为主。未来需探索OMOP概念映射等跨库标准化方法,以及联邦学习(federated learning)在多样化人群中的应用。

创新发现

  1. 1.

    诊断历史重构:酒精滥用(317)和睡眠障碍等看似无关的编码,实际共同指向抑郁症的潜在风险通路

  2. 2.

    年龄悖论:年轻组(32-51岁)的PheRS预测效能反超老年组,提示早期共病累积的预警价值

  3. 3.

    疼痛综合征代偿:不同库中背痛(760)、偏头痛(340)等异质编码均可有效预测OA,体现症状网络的生物学一致性

该研究为整合临床实践与遗传风险提供了可扩展的框架,其方法论创新尤其适用于医疗资源不均衡地区的风险分层。

生物通微信公众号
微信
新浪微博


生物通 版权所有