基于子树剪枝重接的大规模系统发育树评估新方法——推动基因组流行病学研究的可靠性与可解释性

时间:2025年11月7日
来源:Nature

编辑推荐:

本研究针对传统系统发育支持度评估方法(如Felsenstein's bootstrap)在大规模基因组数据中计算成本高、结果难以解释的问题,提出了基于子树剪枝重接的树评估方法(SPRTA)。该方法将支持度评估焦点从拓扑结构转向进化历史,成功应用于包含207万SARS-CoV-2基因组的全球数据集,揭示了变异株进化起源的不确定性,为疫情规模系统发育分析提供了高效可靠的新范式。

广告
   X   

在当今基因组学时代,系统发育分析已成为研究病原体进化和传播的核心工具。特别是在COVID-19大流行期间,科学家们通过对数百万SARS-CoV-2基因组进行系统发育分析,成功追踪了病毒变异株的起源和传播路径。然而,随着数据规模的急剧增长,传统系统发育支持度评估方法面临着严峻挑战。
目前最常用的Felsenstein's bootstrap方法虽然被广泛使用,但在处理大规模数据集时存在明显局限。该方法需要重复进行系统发育推断,计算成本随数据量增长呈指数级上升,难以应用于包含数百万基因组的疫情规模分析。更重要的是,传统方法主要关注分支拓扑结构的可靠性,而基因组流行病学更关心的是突变历史和传播路径的准确性。这种"拓扑焦点"与实际问题需求之间的错位,使得现有方法在疫情分析中的实用价值受到限制。
针对这一难题,由欧洲分子生物学实验室和澳大利亚国立大学的研究团队在《Nature》发表了创新性研究成果。他们开发了一种名为"基于子树剪枝重接的树评估"(Subtree Pruning and Regrafting-based Tree Assessment, SPRTA)的新方法,从根本上改变了系统发育支持度评估的范式。
SPRTA方法的核心思想是将评估重点从"分支定义的类群是否真实存在"转向"某个谱系是否确实从另一个谱系进化而来"。这一转变使得支持度评分更直接地反映了进化历史的可靠性,特别适合基因组流行病学的需求。方法通过评估将子树重新放置到系统发育树其他位置的可能性,来计算原始分支的支持概率。
在技术方法层面,研究团队主要采用了基于最大似然法的系统发育推断、子树剪枝重接操作的概率评估、以及针对大规模数据优化的计算策略。他们使用MAPLE软件对包含207万SARS-CoV-2基因组的全球数据集进行分析,这些基因组数据经过Viridian流程一致性序列识别,并过滤了可能的污染样本。
计算效率显著提升
与传统方法相比,SPRTA在计算效率方面实现了质的飞跃。研究显示,SPRTA将运行时间和内存需求降低了至少两个数量级,且这种优势随着数据集规模的增大而更加明显。
评估准确性优于传统方法
通过模拟SARS-CoV-2样基因组数据的基准测试,研究人员验证了SPRTA在评估突变历史准确性方面的优越性能。SPRTA是唯一能够可靠地区分正确推断和错误推断突变事件的方法,对正确推断的突变事件平均支持度为98-99%,而对错误推断的突变事件平均支持度为85-90%。
揭示SARS-CoV-2进化历史的不确定性
应用SPRTA分析全球SARS-CoV-2数据集发现了大量进化历史的不确定性。在207万基因组中,63.6万个具有突变信息,其中8.7万个基因组的放置支持度低于90%,5.3万个低于50%。内部分支同样存在显著不确定性,在45.4万个有推断突变的内部分支中,5.9万个支持度低于90%,2.9万个低于50%。
一个典型例子是Delta变异株亚系AY.4的进化历史。研究发现,定义该谱系中一个包含16.3万基因组的亚群的分支仅有7.6%的SPRTA支持度,表明其进化起源存在高度不确定性。
对突变率推断的影响
忽略系统发育不确定性会显著影响个别位点的突变数推断。研究发现,位点17040因先前描述的不确定性回复突变而受到强烈影响,其他重要位点也显示出类似模式。
对Pango谱系划分的影响
系统发育不确定性同样影响病原体暴发谱系的定义和样本分配。研究发现,在1127个Pango谱系中,26个有超过5%的概率起源于最大似然树暗示谱系之外的不同谱系。特别值得注意的是BA.2.13谱系,其可能有两个几乎同等概率的进化起源。
这项研究的重要意义在于为疫情规模的系统发育分析提供了首个可行的不确定性量化框架。SPRTA不仅解决了现有方法在计算需求方面的限制,还提供了特别适用于基因组流行病学的分支支持度解释新范式。随着基因组流行病学的日益重要,这种能够高效评估系统发育树可靠部分的方法,将显著提升下游分析如病毒地理传播推断、变异株适应性优势评估等的准确性和可靠性。
该方法未来可进一步扩展至基于主干最大似然系统发育树的系统发育网络构建,有效汇总大量可能的系统发育树,为开发贝叶斯系统发育学的高效互补方法奠定基础,帮助在系统动力学等应用中考虑树的不确定性。

生物通微信公众号
微信
新浪微博


生物通 版权所有