编辑推荐:
研究人员开发了PHLASH(Population History Learning by Averaging Sampled Histories)方法,通过随机采样和平均历史投影,实现了从全基因组序列数据中快速推断群体历史。该方法在模拟数据中表现出优于SMC++、MSMC2和FITCOAL等现有方法的准确性和效率,并提供了自动不确定性量化功能。研究还开发了新的贝叶斯测试程序,用于检测群体结构和古代瓶颈事件,为群体遗传学研究提供了强大工具。
群体遗传学研究一直致力于通过现代基因组数据重建物种的演化历史。然而,现有的群体历史推断方法面临着诸多挑战:计算效率低下、样本量受限、无法量化不确定性等问题制约着研究的深入。特别是当需要分析数千个样本时,传统方法往往难以胜任。此外,现有方法对群体结构和古代瓶颈事件的检测能力有限,且缺乏对推断结果的可靠性评估。
Jonathan Terhorst团队在《Nature Genetics》发表的研究,开发了一种名为PHLASH的新方法,通过创新的贝叶斯框架解决了这些难题。该方法的核心思想是从成对序列马尔可夫共祖(PSMC-like)模型的后验分布中随机抽取低维投影,并将它们平均形成一个自适应估计器。这种独特的设计使PHLASH能够同时兼顾速度、准确性和适应性。
研究采用了多项关键技术:1)开发了计算共祖隐马尔可夫模型对数似然梯度的新算法;2)利用图形处理器(GPU)加速计算;3)整合了位点频率谱(SFS)和连锁不平衡(LD)信息进行正则化;4)使用来自1000基因组计划、HGDP和Simons基因组多样性项目等来源的3609个现代和古代人类基因组数据进行验证。
研究结果部分展示了PHLASH的卓越性能:
"Accuracy compared to existing methods"部分显示,在12种不同人口模型和3种样本量(n=1,10,100)的模拟测试中,PHLASH在61%的情况下达到最高准确度,显著优于SMC++、MSMC2和FITCOAL等方法。特别是在处理大样本量时优势更为明显。
"Running time and memory consumption"部分表明,PHLASH在计算资源使用上表现优异。对于n=10的样本量,PHLASH所需CPU时间和内存显著少于SMC++和MSMC2;当样本量增加到n=100时,PHLASH是唯一能够完成分析的方法。
"Detecting population structure"部分展示了PHLASH在检测群体结构方面的能力。通过分析约鲁巴人(YRI)和汉族(CHB)人群的合并共祖率估计,PHLASH成功识别出人群分化时间,与已知的人类迁徙历史相符。
"Estimating size history from an inferred ARG"部分比较了不同数据来源的推断效果。结果显示,使用真实树序列时PHLASH几乎完美匹配真实群体历史;使用序列数据时在100代以前也表现出色;而使用推断树序列时近期估计更准确。
"Detecting a population bottleneck"部分对近期提出的"人类祖先在93-81万年前经历严重瓶颈"的假说进行了验证。通过对159个人类群体的分析,PHLASH未发现支持这一假说的证据,大多数群体的有效群体大小维持在104-1.5×104之间。
讨论部分强调了PHLASH的多项创新:1)首次实现了对群体历史的完全贝叶斯推断;2)开发了计算PSMC对数似然梯度的快速算法;3)提供了自动不确定性量化功能;4)能够分析数千个样本。这些突破使PHLASH成为群体遗传学研究的有力工具。
该研究的实际意义体现在:1)为人类进化研究提供了更准确的时间框架;2)能够检测古代群体混合和基因流动事件;3)有助于理解现代人群的遗传多样性模式;4)为保护生物学和濒危物种管理提供参考。PHLASH已发布为易于使用的Python软件包,将极大促进相关领域的研究进展。
未来研究方向包括:1)扩展模型以处理更复杂的群体结构;2)改进复合似然函数的加权方案;3)整合位置特异性重组率图谱。这些改进将进一步提升PHLASH的推断能力和适用范围。
生物通 版权所有