研究人员提出MIXPRS,一种基于数据分裂(data fission)范式的稳健框架,用于仅利用全基因组关联研究(GWAS)汇总统计量整合多种群多基因风险评分(PRS)方法。MIXPRS采用单核苷酸多态性(SNP)剪枝以缓解连锁不平衡(LD)错配,并运用非负最小二乘回归(NNLS)估计组合权重。在涵盖多达26种性状的模拟和真实数据分析中,MIXPRS始终优于现有方法。研究人员进一步将该框架扩展为MIXPRS+ ,整合功能注释和临床PRS,在非欧洲人群中获得额外增益。MIXPRS仅依赖汇总统计量,为代表性不足人群提供了广泛的适用性和稳健性。
近年来,遗传学研究长期以欧洲人群为主要对象,这得益于大型队列的可及性,然而由此产生的遗传发现难以直接推广至其他人群。为填补这一数据鸿沟,研究人员持续拓展非欧洲人群的全基因组关联研究(GWAS),并发展多种群多基因风险评分(PRS)方法以提升遗传风险预测在不同人群中的准确性及泛化性。尽管如此,由于模型假设和遗传结构的差异,尚无单一多种群PRS方法能在所有人群和性状中 consistently 表现最优。整合多种PRS方法有望提升稳健性,但通常需要个体水平的校准数据,而这类数据对于代表性不足的人群往往难以获取。此外,GWAS荟萃分析仅产出单一的汇总统计量数据集,限制了独立训练集和校准集的构建,增加了过拟合风险。为应对这一挑战,研究人员开发了MIXPRS框架,其仅依赖GWAS汇总统计量即可实现多种群PRS整合。
该研究旨在解决现有方法的三个核心局限:缺乏形式化的统计框架、局限于单一场景、忽视GWAS汇总统计量与参考面板之间的连锁不平衡(LD)错配。研究人员通过形式化伪GWAS子抽样程序、推广至多方法多种群整合、引入SNP剪枝缓解LD错配、以及扩展至功能注释和临床PRS整合,系统性地推进了该领域。
研究样本来源于英国生物银行(UKBB)和"我们所有人"(AoU)研究计划,涵盖东亚(EAS)、非洲(AFR)、南亚(SAS)和混血美洲(AMR)四个非欧洲人群,涉及多达26种性状。评估指标包括定量性状的方差解释率(R
2 )以及二元性状的受试者工作特征曲线下面积(AUC)、每标准差比值比(OR per s.d.)、顶层与底层20%比值比(top-bottom quintile OR)以及Hosmer-Lemeshaw(HL)检验校准度。
关键技术方法包括:
数据分裂(data fission)策略,用于从单一GWAS汇总统计量生成独立的训练和校准数据集;SNP剪枝策略,基于1000 Genomes Project参考面板,在250 kb窗口内保留成对相关系数低于0.5的变异,并以单位协方差矩阵作为稳健近似;非负最小二乘回归(NNLS),用于估计PRS组合权重并抑制噪声贡献;以及MIXPRS
+ 扩展框架,整合功能注释(SBayesRC)和临床PRS(ClinicalPRS)。
研究结果部分:
MIXPRS框架概述。MIXPRS包含三个关键步骤:第一步为GWAS子抽样,利用数据分裂将目标人群的原始GWAS汇总统计量分解为独立的训练和校准数据集,仅使用经LD剪枝且协方差结构为单位矩阵的SNP;第二步为组合权重估计,首先利用子抽样训练数据结合其他人群的LD剪枝GWAS汇总统计量,通过JointPRS-auto和SDPRX计算PRS,继而应用NNLS至子抽样校准GWAS和已计算的PRS以估计组合权重;第三步为MIXPRS推导,使用所有人群的原始GWAS汇总统计量重新计算PRS效应量,并以第二步获得的权重进行组合。
MIXPRS性能与策略的模拟评估。研究人员通过模拟研究对比了MIXPRS与现有多种群PRS方法的表现。模拟设计基于UKBB欧洲人群GWAS汇总统计量(n=311,600)及利用1000 Genomes单倍型模拟生成的非欧洲人群GWAS汇总统计量。结果发现,MIXPRS在所有因果SNP比例(P=0.1, 0.01, 0.001, 5×10
-4 )和样本量条件下均优于其他方法,平均较JointPRS提升3.2%,较XPASS提升213.1%,较SDPRX提升8.7%,较PRS-CSx提升0.4%,较MUSSEL提升19.4%,较PROSPER提升19.5%,较BridgePRS提升47.5%。与需要额外校准数据的JointPRS和PRS-CSx相比,MIXPRS仅利用发现阶段汇总统计量即实现更优性能。在与个体水平整合(IndPRS)和理想化汇总水平整合(IdealPRS)的比较中,MIXPRS预测准确性与二者相当,接近个体水平基准同时完全依赖GWAS汇总统计量。在组合策略比较中,岭回归、lasso、弹性网络和NNLS取得相似的预测准确性,而NNLS无需额外超参数调优。MIXPRS始终匹配或超越其组分方法(JointPRS-auto在较密集设置中表现较优,SDPRX在较稀疏设置中表现较优),展现出改善的稳定性。关于模型假设稳健性的评估显示,标准化残差紧密遵循N(0,1)分布,支持高斯近似;在三种协方差结构策略比较中,Identity_Prune(LD剪枝SNP配合单位协方差矩阵)在稀疏遗传架构或LD错配情况下提供最为稳健的性能,在EUR中提升预测达10.20%,在非欧洲人群中提升达10.50%。
MIXPRS策略在UKBB中的有效性与稳健性。研究人员开展三方面真实数据分析:与使用个体水平校准数据的PRS整合方法比较、与汇总水平PRS整合基线比较、以及在不同协方差结构和SNP剪枝列表下的评估。首先,与四种线性组合策略(岭回归、lasso、弹性网络、NNLS)构建的IndPRS相比,MIXPRS在东亚和非洲人群中仅存在约5%的平均差距,在南亚和混血美洲人群中几乎无差距,表明个体水平整合仅带来有限额外收益。其次,与汇总水平基线(Full_Linear,全SNP配合LD参考面板和线性回归)相比,MIXPRS(Prune_NNLS)显著优于后者,在东亚、非洲、南亚和混血美洲人群中分别提升9.48%、4.49%、33.33%和43.52%,其中SNP剪枝独立贡献3.57%、1.85%、27.17%和28.51%的增益,NNLS额外贡献5.73%、2.59%、4.57 actions57%和11.47%的增益。最后,MIXPRS在单位协方差矩阵和LD参考矩阵下均表现稳健,前者在LD对齐不完美时作为稳定默认选择;不同SNP剪枝列表间的表现亦具稳健性,默认优先保留较高非主要等位基因频率变异的列表略优。
无校准数据条件下MIXPRS在UKBB的性能基准测试。在无需个体水平校准数据的场景下,研究人员将MIXPRS与JointPRS-auto、SDPRX、PRS-CSx-auto和XPASS进行比较。结果显示,MIXPRS在所有人群中持续改善预测性能,较JointPRS-auto在东亚、非洲、南亚和混血美洲人群中分别提升5.17%、14.29%、16.25%和15.62%。与组分方法相比,MIXPRS在22个连续性状中的18个、4个二元性状中的2个东亚性状中表现最优。与单种群整合框架PUMAS-EN的比较凸显多种群整合优势:MIXPRS整合五人群GWAS汇总统计量,而PUMAS-EN仅使用欧洲和目标人群数据;MIXPRS使用NNLS无需调参,PUMAS-EN需为弹性网络保留10% GWAS用于超参数调优。结果显示MIXPRS在两个PUMAS-EN版本中均表现更优,在三个非欧洲人群中的四个脂质性状上,较PUMAS-EN平均提升300.97%、101.68%和210.08%,较PUMAS-EN_paper提升37.55%、14.21%和43.69%。
有校准数据条件下MIXPRS在UKBB和AoU的性能基准测试。研究人员评估了同队列(UKBB内部五折交叉验证)和跨队列(UKBB校准、AoU测试)两种场景。在同队列场景中,MIXPRS较JointPRS在东亚、非洲、南亚和混血美洲人群中分别提升1.70%、0.70%、4.55%和5.98%。在跨队列场景中,MIXPRS在非洲和混血美洲人群中较JointPRS分别提升6.07%和5.58%。AoU评估显示MIXPRS与IndPRS性能相当,表明使用GWAS汇总统计量替代个体水平数据的损失极小,且二者均大幅优于SDPRX,凸显跨方法跨人群整合的优势。
利用临床PRS和功能注释增强MIXPRS。研究人员将MIXPRS扩展至MIXPRS
+ ,整合临床PRS(ClinicalPRS,来自大规模荟萃分析)和功能注释PRS(SBayesRC)。由于SBayesRC需要全基因组插补SNP效应,无法使用SNP剪枝和单位协方差近似,MIXPRS
+ 采用完整HapMap3 SNP集和1000 Genomes LD参考面板。ClinicalPRS作为外部预测因子直接纳入权重估计步骤。在BMI(东亚、非洲)和冠状动脉疾病CAD(东亚)的评估中,MIXPRS
+ 在BMI和CAD的综合平均排名中表现最优。具体而言,BMI东亚人群中MIXPRS
+ 具有最高的R
2 、AUC、OR per s.d.和顶层-底层五分位OR;BMI非洲人群中MIXPRS具有最高R
2 和AUC,ClinicalPRS具有最大OR,MIXPRS
+ 校准最佳;CAD东亚人群中MIXPRS
+ 具有最高顶层-底层五分位OR,ClinicalPRS具有最高AUC和OR per s.d.,所有方法校准度不足但MIXPRS
+ 相对最优。
讨论与结论部分。研究人员指出,MIXPRS通过形式化数据分裂范式生成独立数据集,推广至多方法多种群PRS整合,以SNP剪枝缓解LD错配,并以NNLS实现稳健权重估计。该框架仅依赖GWAS汇总统计量,消除了个体水平校准数据的需求,降低隐私顾虑,避免小样本校准数据噪声,并促进基于公开数据的标准化基准测试。LD错配作为影响PRS性能的关键因素在此项工作中得到系统分析,SNP剪枝提供实用解决方案,而LD矩阵收缩或基于条件分布的SNP过滤等替代方法值得未来探索。
MIXPRS
+ 的扩展展示了框架的灵活性,能够有效整合多种群PRS方法、大规模荟萃分析临床PRS和功能注释信息,进一步改善非欧洲人群的预测性能。当前局限包括:仅整合了无需个体水平数据的两类多种群方法(JointPRS-auto和SDPRX),纳入更多依赖个体数据的方法为重要方向;模拟研究依赖模拟非欧洲基因型,未来需利用生物银行规模真实数据验证;真实数据分析受限于人群特异性GWAS汇总统计量的可及性。发表于《Nature Genetics》的此项研究为代表性不足人群的遗传风险预测提供了兼具广泛可及性和稳健性的整合框架。
打赏