基于责任阈值模型的电子健康记录表型整合方法提升疾病风险预测与全基因组关联研究效能

时间:2025年11月4日
来源:Nature Genetics

编辑推荐:

本研究针对电子健康记录(EHR)中病例-对照标签定义不精确、统计效能有限的问题,提出了责任阈值表型整合(LTPI)方法。该方法通过整合诊断代码、家族史、实验室测量值等二元/连续表型,结合遗传相关性估计,构建连续疾病风险评分。在eMERGE和UK生物样本库的应用表明,LTPI较传统PheCodes、LTFH和SoftImpute方法显著提升疾病风险预测准确性(R2达0.674)和GWAS检测功效(位点发现数增加172%),为EHR数据的精准医学应用提供新范式。

广告
   X   

随着电子健康记录(EHR)在基因组研究中日益普及,如何精准定义疾病表型成为关键挑战。目前大多数研究依赖国际疾病分类(ICD)代码进行病例-对照标注,但这种方法存在准确性有限、粒度粗糙、缺失模式非随机等问题。更棘手的是,特定疾病的病例数不足会降低统计效能并引入偏倚。ICD代码将疾病定义为离散实体,无法反映疾病风险的连续性特征。相比之下,对常见疾病进行更量化的表征可能更好地解决风险异质性,提升基于EHR表型的基因组研究效能。
针对这一难题,哥伦比亚大学Cue Hyunkyu Lee等研究人员在《Nature Genetics》发表了题为"Liability threshold model-based disease risk prediction based on electronic health record phenotypes"的研究,提出了责任阈值表型整合(LTPI)方法。该方法创新性地结合遗传相关性与表型数据,包括诊断代码、家族疾病史、实验室测量值和生物标志物等二元和连续性状,为靶向疾病推导新的连续表型。
LTPI方法的核心突破在于其自动性状选择算法(ATSA),该算法通过评估非靶向性状对靶向疾病的遗传贡献度(定义为非靶向性状解释的靶向疾病遗传方差比例),智能筛选最优性状组合。这种方法不仅提升了疾病风险预测性能,还能揭示与靶向疾病相关的非靶向性状特征。
研究团队通过模拟研究和在eMERGE网络及英国生物样本库(UKBB)的实际应用,验证了LTPI的卓越性能。与传统的表型代码(PheCodes)、仅包含家族史的模型(LTFH)以及表型插补方法SoftImpute相比,LTPI在疾病风险预测和全基因组关联研究(GWAS)效能方面均表现出持续优势,同时保持了相似的假阳性率控制水平。
关键技术方法包括:1)基于Geweke-Hajivassiliou-Keane(GHK)算法的后验平均遗传责任估计;2)利用连锁不平衡评分回归(LDSC)估计性状间遗传相关性;3)针对UKBB的404,981名英国白人参与者进行大规模表型整合分析;4)采用Regenie进行全基因组关联分析。
LTPI框架构建
LTPI是基于责任阈值模型的靶向疾病预测框架,将未观察到的责任与非靶向PheCodes和连续表型相关联。如图1所示,该方法包含三个关键步骤:第一步计算靶向疾病的后验平均遗传责任(LTPIb),条件于二元非靶向性状;第二步利用额外的连续非靶向表型推导最大似然估计(LTPIc);第三步将LTPIb和LTPIc组合成最终LTPI评分。该方法的核心创新是ATSA,它基于评估非靶向性状对靶向疾病的遗传贡献度,自动选择最具信息量的性状组合。
模拟验证性能
通过包含300,000个个体的广泛模拟,研究人员验证了LTPI在疾病风险预测准确性(R2)、假阳性率(FPR)和GWAS效能方面的优势。结果显示,随着包含性状数量增加或遗传相关性(ρAR(1))提高,R2持续上升。当包含21个二元性状和5个连续性状时,平均R2LTPI达到0.62±0.005,较仅包含21个二元性状的模型提升42.53%。在遗传相关性(rg=0.7)和遗传率(h2=0.7)最高时,观察到最大R2为0.674。
GWAS效能评估
在无缺失数据情景下,当ρAR(1)=0.7时,LTPI较LTFH实现19.49%的效能提升(51.8±0.77% vs 43.35±0.38%)。结合LTPI和LTFH P值的Cauchy组合方法(LTPI+FH)进一步将效能提升至58.35±0.78%。在靶向表型30-50%缺失情景下,LTPIcond表现出强劲的稳健性,效能损失仅为2.21-17.59%,显著优于SoftImputecond和GWAScond
eMERGE网络应用
在eMERGE-III数据集的42,823名欧洲个体中,研究人员以慢性肾脏病(CKD)为靶向疾病进行验证。通过手动选择和ATSA两种策略筛选非靶向性状,LTPI评分与基于肾小球滤过率分期的CKD表型呈现显著正相关(r=0.947;P<3.1×10-30)。对于G3期及以上CKD,LTPI versus G-stage的R2为0.325,优于PheCode的0.252。接收者操作特征曲线下面积(AUROC)达到0.798(G3及以上)和0.954(G4及以上)。
UK生物样本库验证
在404,981名英国白人参与者中,LTPI在9种疾病的风险预测中持续超越LTFH。GWAS分析显示,LTPI和LTFH分别恢复了标准GWAS发现位点的91%和93%,并识别出额外的独立关联。对于冠状动脉疾病(CAD),LTPI识别出139个风险位点,显著多于LTFH(120个)和GWAS(51个)。PRS多效性(PRSpleiotropy)分析表明,LTPI在利用多效信号增强效能的同时,保持了良好的特异性。
方法学创新
LTPI与表型插补方法存在本质区别。虽然表型插补侧重于填充缺失数据,但LTPI旨在用连续风险评分替代二元表型,即使在没有数据缺失时也适用。与通用插补方法不同,LTPI能区分遗传和环境因素,明确利用遗传相关的非靶向性状。该方法基于广泛使用的LDSC等模型,将观察到的表型与潜在责任相关联,并包含基于非靶向性状遗传贡献的ATSA,减少专家驱动特征选择的需求,最大限度降低GWAS假阳性。
研究意义与局限
该研究的重要意义在于为生物样本库数据的基因组研究提供了更强大的表型量化工具。传统二元表型有限的统计效能和可解释性构成重大挑战,而LTPI利用丰富的EHR特征估计个体疾病风险,显著提升了临床风险分层和GWAS发现能力。研究证明,结合足够的EHR表型信息,LTPI可实现与或超过LTFH相当的预测准确性。
然而,研究也存在一定局限性。表型预测评估缺乏金标准标签验证,依赖PheCodes等不完美标签。虽然尽可能考虑经过验证的表型算法(如CKD),但报告的不同疾病预测准确性需谨慎看待。另一个潜在担忧是整合非靶向性状信息可能导致遗传发现不特定于靶向性状,但ATSA旨在识别与靶向性状遗传相关的非靶向性状,从而限制不相关非靶向性状的包含。
LTPI具有广泛的适用性,可应用于不同EHR系统。eMERGE和UKBB的应用证明了这一潜力。UKBB是英国40-70岁个体的基于人群的队列,旨在代表一般人群,而eMERGE针对美国20-80岁的患者人群,通常涉及收集期间的医院访客。这种设计差异意味着,虽然eMERGE基于患者的方法可能允许更深入的表型分析和改进疾病信号检测,但与UKBB更广泛的人群样本相比,引入了更高的抽样偏倚风险。
总之,LTPI为临床风险分层提供了高效自动的方法,强调了多性状分析模型在EHR数据中用于疾病风险预测及后续GWAS应用的巨大潜力。随着模型层面的进一步改进以及表型特征向非结构化数据(如临床笔记)的扩展,LTPI的性能可进一步提升,对个体水平临床风险预测产生重要影响。

生物通微信公众号
微信
新浪微博


生物通 版权所有