多基因评分表型预测中校准预测区间的统计构建及其在精准医学中的应用

时间:2025年10月14日
来源:Nature Genetics

编辑推荐:

本研究针对多基因评分(PGS)应用中表型预测不确定性量化难题,提出了非参数方法PredInterval。该方法兼容任意PGS算法,通过交叉验证利用表型残差分位数构建校准预测区间,在17种性状的真实数据应用中实现平均8.7-830.4%的高风险个体识别率提升,显著增强PGS临床应用的可靠性。

广告
   X   

随着精准医学的快速发展,多基因评分(Polygenic Score, PGS)已成为复杂性状遗传预测的重要工具。通过整合全基因组关联研究(GWAS)发现的数以万计的单核苷酸多态性(SNP)效应值,PGS能够量化个体对特定性状的遗传倾向性,在疾病风险分层、早期干预和个性化治疗等方面展现出巨大潜力。然而,由于GWAS样本量的限制和模型本身的不确定性,PGS估计存在显著误差,这给临床解读和实际应用带来了严峻挑战。传统方法主要依赖点估计进行风险判断,无法量化预测不确定性,更难以在不同遗传架构的性状中实现可靠的覆盖校准。
为解决这一核心问题,密歇根大学徐昌团队与耶鲁大学周翔团队在《Nature Genetics》发表了创新性研究方法PredInterval。该方法突破传统点估计局限,首次构建了适用于任意PGS算法的校准预测区间框架,为临床决策提供可靠的不确定性量化工具。
研究采用交叉验证(CV)残差分位数估计技术,通过五折交叉验证计算表型观测值与PGS预测值的绝对残差,进而构建具有统计保证的预测区间。关键技术包括:1)基于个体水平数据或摘要统计的灵活输入架构;2)结合确定性贝叶斯稀疏线性混合模型(DBSLMM)的SNP效应值估计;3)利用英国生物银行(UK Biobank)361,112名欧洲裔样本的基因型-表型数据进行验证;4)采用PUMAS框架实现摘要统计的子采样处理。
仿真验证显示卓越性能
通过定量性状和二元性状的大规模仿真,研究团队系统评估了PredInterval在不同遗传架构下的表现。如图2所示,在目标覆盖率为95%的设置下,PredInterval在定量性状中实现96.0%的平均覆盖率(中位数96.0%,范围95.1-97.4%),在二元性状中达到96.7%(中位数96.6%,范围94.9-98.7%)。相比之下,基于无穷小模型假设的BLUP解析形式方法覆盖率仅为83.4%,而CalPred方法也仅达到80.2%。
方法通用性与稳定性验证
研究进一步证实PredInterval可与多种主流PGS方法联用。当与摘要数据BLUP(SBLUP)、PRS-CS和LDpred结合时,PredInterval在定量性状中分别实现96.3%、95.3%和95.2%的覆盖率,在二元性状中达到95.1%、95.1%和95.7%(图3a)。交叉验证折数分析表明,当折数从3增加到10时,覆盖率从96.5%逐渐收敛至95.7%,显示该方法具有良好的稳定性。
高风险个体识别能力突破
如图4所示,PredInterval在高风险个体识别方面取得显著突破。对于定量性状,以前5%分位数为高风险阈值,PredInterval平均识别成功率达94.7%,较BLUP解析形式(87.5%)和CalPred(78.8%)分别提升8.7%和86.3%。对于二元性状(以病例为高风险个体),PredInterval平均成功率达41.1%,较对比方法提升830.4%和127.2%。特别是在病例患病率≥0.05的四种疾病中(高血压、哮喘、骨关节炎和高胆固醇),PredInterval成功识别率分别达到84.5%、58.5%、41.8%和62.1%,而对比方法多数接近零识别。
真实数据应用验证
在英国生物银行12个性状的应用中,PredInterval再次证明其优越性(图5)。六种定量性状(包括身高、BMI、肺活量等)平均覆盖率达95.6%,六种二元性状(包括高血压、哮喘、类风湿关节炎等)平均覆盖率达95.9%。值得注意的是,随着遗传力增加,PredInterval保持稳定覆盖,而对比方法表现下降。间隔宽度分析显示,PredInterval产生更宽的预测区间,但具有更好的区间宽度变异性和覆盖校准性。
摘要统计版本一致性验证
研究还开发了PredInterval的摘要统计版本,使用全球脂质遗传 consortium(GLGC)、GIANT和DIAGRAM等外部摘要数据进行验证。如图5b所示,该版本在五种定量性状和一种二元性状中实现95.0%的平均覆盖率,与个体水平版本性能高度一致(补充图22),为大规模应用提供可行方案。
研究结论表明,PredInterval首次为解决PGS预测不确定性量化难题提供了通用解决方案。其非参数特性使其能够适应各种遗传架构,无需依赖特定模型假设。通过直接量化表型预测不确定性而非PGS点估计不确定性,该方法成功规避了传统方法的技术瓶颈。讨论部分强调,PredInterval的校准预测区间不仅为临床解释提供可靠依据,更重要的是为基于PGS的风险分层提供了原则性方法,使高风险个体识别从简单排序升级为统计推断。
该方法目前主要适用于同 ancestry 群体,未来需要扩展至跨祖先预测场景。研究者已公开提供PredInterval软件(https://github.com/xuchang0201/PredInterval),包括个体水平和摘要统计两个版本,为领域发展提供重要工具资源。这项工作的创新性在于将机器学习中的CV+框架巧妙引入遗传预测领域,通过残差分位数估计实现了统计理论保证下的实用化应用,为PGS从研究工具向临床仪器转化迈出关键一步。

生物通微信公众号
微信
新浪微博


生物通 版权所有