GTDB第10版发布:为715,230个细菌和17,245个古菌基因组提供完整系统的分类学框架

时间:2025年10月23日
来源:Nucleic Acids Research

编辑推荐:

本研究针对微生物分类学缺乏系统性与一致性的问题,开展了GTDB(Genome Taxonomy Database)第10版数据库的构建工作。研究团队通过整合NCBI Assembly数据库的基因组数据,采用平均核苷酸一致性(ANI)界定物种、相对进化分歧度(RED)定义高级分类单元,建立了涵盖732,475个基因组的标准化分类体系。结果表明,该版本新增135,616个基因组,但新发现的主要原核生物谱系趋于饱和,提示可探索的微生物多样性正接近瓶颈。该资源为微生物组研究、病原体鉴定和进化分析提供了关键参考框架。

广告
   X   

微生物是地球上最丰富的生命形式,但我们对它们的认识仍存在巨大空白。传统分类方法严重依赖培养技术,而环境中超过99%的微生物尚未被成功培养。这导致微生物分类学长期存在不一致性和不完整性,特别是随着宏基因组学技术的发展,科学家们能够从环境样本中重建出海量的宏基因组组装基因组(MAGs),但这些基因组缺乏标准的分类框架。不同研究团队对同一微生物可能赋予不同的分类地位,这种混乱局面严重阻碍了微生物多样性研究、进化分析和临床病原体鉴定的进展。
为了解决这一难题,由澳大利亚昆士兰大学Philip Hugenholtz教授领导的研究团队在《Nucleic Acids Research》上发布了基因组分类数据库(GTDB)的第10版。GTDB是一个基于基因组序列的标准化分类系统,旨在为细菌和古菌提供系统发育一致且等级规范化的分类学框架。
研究团队采用了几项关键技术方法:从NCBI Assembly数据库获取732,475个原核生物基因组;使用CheckM v1和v2进行基因组质量评估;通过平均核苷酸一致性(ANI)和比对分数(AF)进行物种聚类;利用相对进化分歧度(RED)算法对串联标记基因树进行标准化以定义高级分类单元;采用改进的蛋白质混合模型处理 archaeal 系统发育分析中的位点组成异质性。
资源内容
GTDB R10-RS226共包含715,230个细菌和17,245个古菌基因组,划分为136,646个细菌和6,968个古菌物种集群。数据显示,细菌MAGs数量在R09-RS220版本中首次超过分离株(141,593 MAGs vs 47,276分离株),古菌中MAGs始终占主导地位。尽管高阶分类单元(如门、纲)的增长速度放缓,表明主要微生物谱系的发现趋于饱和,但物种数量仍以年均34.4%(细菌)和33.5%(古菌)的速度增长。值得注意的是,86.9%的物种仍使用占位符名称,反映出绝大多数微生物多样性尚未得到正式描述。
GTDB网站的改进
网站新增了与外部资源的链接功能,包括Bergey's Manual、LPSN、SeqCode和NCBI Taxonomy等权威数据库。 Taxonomy Tree视图现在可以显示基因组数量或下级分类单元统计信息,例如用户可快速查询Spirochaetota门拥有15个纲和5,241个基因组。此外,还增加了命名统计和系统发育多样性分析等资源级统计功能。
资源方法与政策
方法学上主要更新包括:将物种聚类的AF阈值从65%降至50%以适应不完整MAGs;用skani替代FastANI进行ANI/AF计算,提升计算效率;古菌系统发育分析采用53个标记基因集并优化组成异质性模型。政策方面,GTDB采用年度发布周期,并承认SeqCode的命名优先级,同时设立了科学咨询委员会指导资源发展。
命名法更新与挑战
研究团队响应了原核生物命名法的重要变革:国际原核生物命名法(ICNP)正式承认"门"级分类等级,SeqCode的建立为未培养微生物提供了命名依据。针对病原体分类的特殊需求,文章指出GTDB当前框架不适用于区分携带可水平转移毒力因子的病原菌亚种,未来计划开发"命名扩展系统"(如Bacillus anthracis gv.anthrax)来区分垂直进化与水平获得的致病特征。
GTDB用户应用
该数据库已被广泛应用于第三方工具(如GTDB-Tk下载量达30万次)、MAG研究的多样性量化以及生物学机制解析。典型案例如发现未培养细菌谱系TANB77是癌症免疫检查点阻断治疗的生物标志物,以及利用GTDB筛选的代表性基因组推演细菌氧气适应的地质时间尺度。
未来计划
团队计划拓展基因组来源(如纳入中国国家基因库等非INSDC资源)、探索"界"级分类单元的引入、开发病原体命名扩展系统,并启动真菌分类学计划。GTDB-Tk v3和翻译表预测工具gTranslate也在开发中。
GTDB R10通过整合不断增长的基因组数据,并采用计算方法标准化分类框架,显著推进了微生物分类学的发展。该资源不仅解决了传统分类学的不一致问题,还为探索微生物暗物质、理解生命进化历史以及开发临床诊断工具提供了关键基础设施。随着测序技术的进步和全球微生物组计划的推进,GTDB将持续完善其分类体系,最终实现对所有原核生物多样性的系统编目。

生物通微信公众号
微信
新浪微博


生物通 版权所有