高效精准的全基因组谱系贝叶斯推断方法SINGER实现数百个基因组的大规模分析

时间:2025年9月9日
来源:Nature Genetics

编辑推荐:

本研究针对基因组祖先重组图(ARG)重建中的精度不足和不确定性量化难题,开发了贝叶斯方法SINGER。该方法通过两阶段采样算法和子图剪接技术,将ARG采样速度提升两个数量级,实现了对数百个全基因组序列的高精度推断。应用显示其能有效识别种群分化信号、古人类基因渗入和跨物种多态性,为群体基因组学和生物医学研究提供了强大工具。

广告
   X   

在基因组学研究中,祖先重组图(Ancestral Recombination Graph, ARG)作为描述样本基因组谱系历史的重要工具,对理解人类遗传变异和生物医学研究具有关键价值。然而,现有ARG重建方法面临三大挑战:计算可扩展性差导致无法处理大规模样本;依赖近似模型降低推断精度;缺乏对推断不确定性的量化能力。这些局限严重制约了ARG在群体基因组学和精准医学中的应用。

为突破这些技术瓶颈,Yun Deng、Rasmus Nielsen和Yun S. Song团队在《Nature Genetics》发表了创新性研究成果。他们开发的SINGER(Sampling and Inferring of Genealogies with Recombination)方法,通过算法优化将ARG采样效率提升两个数量级,首次实现了对数百个全基因组序列的高精度贝叶斯推断。这项研究不仅解决了计算生物学领域的关键技术难题,更为探索人类进化历史和复杂疾病遗传基础提供了全新研究范式。

研究团队采用多项创新技术实现方法突破:1) 开发分支-时间两阶段采样算法,通过构建分支隐藏状态的隐马尔可夫模型(HMM)和条件时间采样模型,大幅降低计算复杂度;2) 提出子图剪接重嫁接(SGPR)的马尔可夫链蒙特卡洛(MCMC)提案,实现ARG拓扑空间的高效探索;3) 设计ARG重缩放算法,通过校准突变密度与分支长度关系,增强模型错误设定的鲁棒性;4) 应用1000 Genomes Project中英国(GBR)和非洲五个人群(GWD/YRI/ESN/LWK/MSL)的全基因组测序数据进行方法验证。

性能评估方面,研究通过系统模拟实验证明:在50个和300个序列的测试中,SINGER在共祖时间推断精度上显著优于ARGweaver、Relate等方法。特别是在CEU人群的瓶颈-扩张复杂人口历史模拟中,SINGER准确捕捉到共祖时间分布的双峰特征,而其他方法则出现系统性偏差。树拓扑评估显示,SINGER的三联体距离误差率最低,表明其拓扑重建最为准确。在突变和重组推断方面,SINGER对等位基因年龄的估计误差最小,对重组断点的检测灵敏度与金标准相当。

应用研究成果方面,研究团队有三个重要发现:1) 在非洲人群中发现SCS3等基因存在显著的群体特异性多样性降低,可能与黄热病病毒抵抗等局部适应有关;2) 开发基于共祖分布热图的基因渗入检测新方法,在英国人群中发现200 kb的尼安德特人渗入片段;3) 在人类白细胞抗原(HLA)区域检测到大量早于人-黑猩猩分化时间的跨物种多态性,为平衡选择理论提供强有力证据。

在人类HLA区域的分析尤为引人注目。数据显示该区域平均共祖时间超过1000万年,远超人类与黑猩猩的分化时间(5-12 Mya)。其中HLA-A、HLA-DRB1等基因显示出极强的跨物种多态性特征。与Relate等方法相比,SINGER能更准确捕捉这些极端古老的共祖事件,这得益于其对拓扑不确定性的完整采样和对中性偏离模型的鲁棒性。

这项研究在方法学和应用层面均取得重要突破。在技术上,SINGER首次实现了大规模样本的全后验采样,为ARG不确定性量化奠定基础;在应用上,其揭示的种群分化模式和古老多态性为理解人类适应进化提供新视角。值得注意的是,虽然SINGER对模型错误设定具有较强鲁棒性,作者也指出其在处理未分型数据和古代DNA时仍存在局限,这为未来研究指明了改进方向。

该成果的潜在影响深远:一方面,SINGER的高精度ARG推断能力将推动群体遗传学和进化医学研究进入新阶段;另一方面,其开发的两阶段采样和SGPR等通用算法框架,可为其他复杂系统的贝叶斯推断提供方法论借鉴。随着更多基因组数据的积累,SINGER有望在疾病遗传架构解析和精准医疗等领域发挥更大价值。

生物通微信公众号
微信
新浪微博


生物通 版权所有