迪帕克·库卡尔(Deepak Kukkar)|查哈特·乔普拉(Chahat Chopra)|基贤·金(Ki-Hyun Kim)|普丽蒂·拉杰什(Preeti Rajesh)
早期的分子生物学技术(如桑格测序(Sanger et al., 1977)、聚合酶链反应(PCR)技术(Saiki et al., 1985)和基于逆转录酶的16S核糖体RNA(rRNA)分析(Lane et al., 1985)为从环境中分离新基因组奠定了基础。在过去的四十年中,16S rRNA基因测序等技术被用于鉴定数百万种新的微生物分类单元。尽管这些旧技术有价值,但由于其缺点(如测序成本高和耗时较长),下一代测序(NGS)技术的发展成为必然。例如,克雷格·文特尔博士(Dr. Craig Venter)花费了9个月时间和1亿美元使用桑格测序技术完成了人类基因组的测序(Venter, 2001)。如今,NGS技术可以在几小时内以不到1000美元的成本完成人类基因组的测序(Kulski, 2016)。NGS技术的快速发展使得从微生物物种中鉴定出超过300万个16S rRNA基因序列,并且这些序列现已公开存储在数据库中(Quast et al., 2012)。NGS技术的快速进步凸显了生物信息学及其相关数据科学工具在分析环境样本中大量基因组数据方面的巨大潜力。这一进展推动了能够处理、分析和解释这类复杂数据集的高级生物信息学工具的发展。因此,NGS和生物信息学工具是宏基因组学方法进步的关键因素。
宏基因组学的发展源于传统培养方法所面临的局限性。传统的培养技术通过结合生化分析和基因测序方法可以揭示分离微生物的生态生理特征。然而,这些传统的微生物培养方案通过改变培养基的组成来选择特定微生物,这导致只能发现环境中存在的微生物的约1%(Amann et al., 1995; Teeling and Glöckner, 2012)。相比之下,宏基因组学提供了一种公正的方法,可以从复杂的环境样本(如盐沼/湿地、动物肠道和温泉)中发现新微生物(Ko et al., 2022)。宏基因组学的准确性和可靠性取决于多种因素,包括(a)生物信息学研究的准确性,(b)分类算法,以及(c)用于识别微生物分类单元的数据库(Simon et al., 2019; van Boheemen et al., 2020)。
现代宏基因组学主要依赖于环境DNA的高通量测序(HTS),随后通过结构和功能方法进行计算机分析。结构宏基因组学通过分析分离微生物群体的遗传序列来预测基因功能。结构宏基因组学研究可以揭示特定微生物群体中单个微生物的生态位和生物功能(Prayogo et al., 2020)。结构宏基因组学研究包括对环境DNA进行HTS,然后通过计算分析组装contigs、对宏基因组组装的基因组(MAGs)进行分箱、识别基因位点及其在生化途径中的作用(Thomas et al., 2012; Roumpeka et al., 2017; Prayogo et al., 2020)。这种方法有助于探索环境微生物群体的基因组潜力和生态功能。另一方面,功能宏基因组学可以在克隆宏基因组DNA后,鉴定在替代宿主体内表达的新酶/蛋白质(Pabbathi et al., 2023)。对于筛选和鉴定潜在的新酶及其在医疗和环境应用中的价值,功能宏基因组学至关重要(Pushkarev et al., 2018; Liu et al., 2019)。
HTS方法的出现,特别是全宏基因组NGS(mNGS)技术,以及基因序列分析成本的降低,极大地促进了微生物生态学的发展。特别是鸟枪法宏基因组测序促进了从环境样本中直接分析所有宏基因组序列(Quince et al., 2017)。与标记基因方法不同,mNGS能够捕获完整的遗传信息,包括稀有基因、移动元件和新生物合成途径。这为深入理解微生物的功能、进化和相互作用提供了更多见解。当mNGS技术与生物信息学及相关计算流程结合时,它们能够高精度地恢复MAGs、重建基因途径并进行分类分析。随着测序成本的持续下降,宏基因组研究的数量激增。为了探讨生物信息学在推动mNGS技术发展中的作用,我们使用“宏基因组学生物信息学分析”关键词在Google Scholar上进行了搜索。不出所料,相关出版物数量从2015年的6870篇增加到2024年的23,400篇(图1A)。在PubMed上使用相同关键词进行的搜索也显示了类似的趋势(图1B)。
尽管在过去十年中引入了许多先进的生物信息学工具和流程,但选择一种工具或整合两种或更多工具以获得最佳研究结果仍是一项复杂的任务。通常,工具的选择基于熟悉度而非分析兼容性。现有文献提供了关于现有工具的信息,但并未提供工具组合的策略。可以根据工作目标、使用的测序策略和所需的分辨率来组合这些工具。本文通过提供基于决策的框架,填补了这一知识空白,为宏基因组学和生物信息学流程提供了指导。文中根据工具在流程中的作用对其进行了分类,并定义了它们在扩增子和全基因组测序中的应用。
这些不断增长的出版物表明,生物信息学在作为具有学术和商业意义的现代研究领域中的作用正在不断扩大。然而,迄今为止还没有研究比较不同生物信息学工具的独特属性、系统框架、优势和劣势。本文提供了当代生物信息学工具的全面概述,评估了它们的优点、缺点和用例,并讨论了该研究领域的未来发展方向,以帮助扩展其实际应用。
生物信息学工具开发的历史视角
用于微生物筛选的生物信息学工具的发展历程
像NGS这样的生物信息学技术是快速分析千兆级生物数据集的高效选择。过去十年计算技术的快速发展让人难以想象50年前用于分析生物数据的硬件和软件状况。显然,台式计算机直到20世纪末才出现,而DNA测序技术则是21世纪的发展成果。这里我们简要概述了一些关键的历史发展点
宏基因组分析的生物信息学流程
可以利用多种计算流程从宏基因组数据中提取复杂微生物群体的分类组成和功能潜力。这些流程有助于数据预处理、序列组装、宏基因组组装基因组(MAGs)的分箱、分类注释、功能注释、比较分析以及结果可视化。每个步骤都配备了专门的工具,以提升数据质量、提高分类精度并识别功能基因
用于分析宏基因组发现微生物的生物信息学工具
在微生物组研究中,多样性和群体识别是一个基本目标。HTS技术(扩增子测序和鸟枪法测序)是识别环境或临床样本中微生物群组成的重要工具。使用特定引物扩增样本中目标基因的特定区域称为扩增子测序(Lundberg et al., 2013; Hebert et al., 2018)。16S rRNA基因、18S rRNA基因和真菌核糖体的ITS区域是
扩展生物信息学工具以分析宏基因组分离微生物所面临的挑战
为了顺利实施旨在识别微生物异质性的项目,必须解决诸如选择合适的16S rRNA基因高变区域、选择合适的HTS平台以及使用合适的测序后生物信息学软件等挑战。其他同样重要的问题包括样本(如肠道、口腔或温泉样本)的采集方法、收集样本的后续处理以及基因组DNA的纯化程序。
计算资源民主化和公平宏基因组研究的未来前景
尽管取得了进展,但使用宏基因组工作流程的主要缺点是计算需求高(Pita-Galeana et al., 2025)。大多数工具需要大量内存和性能强大的计算机。因此,许多研究人员由于无法获得这样的工作站和所需设施而无法开展研究。为了解决这个问题,可以使用基于云的平台(如galaxy和terra)(Goecks et al., 2010)。这些平台有助于运行复杂的宏基因组分析
结论
本文概述了用于在结构化、端到端分析框架内分析宏基因组分离微生物的最先进生物信息学工具。这些工具根据其在分析16S rRNA基因数据(来自扩增子测序)或全基因组(来自鸟枪法测序)中的应用被分为两大类。讨论中提到的用于16S rRNA基因识别的流行生物信息学流程包括DADA2、DAMIAN、MOTHUR和QIIME。
CRediT作者贡献声明
迪帕克·库卡尔(Deepak Kukkar):撰写——审稿与编辑、撰写——初稿、研究、资金获取、正式分析、数据管理、概念化。
查哈特·乔普拉(Chahat Chopra):撰写——初稿、方法学、研究、数据管理。
基贤·金(Ki-Hyun Kim):撰写——审稿与编辑、验证、监督、正式分析、数据管理。
普丽蒂·拉杰什(Preeti Rajesh):撰写——审稿与编辑、可视化、数据管理。
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。
致谢
DK和PR感谢印度医学研究委员会(Indian Council of Medical Research)在课外小额资助计划(项目编号EMDR/SG/13/2023-0756)下的资助。KHK感谢韩国国家研究基金会(National Research Foundation of Korea,由韩国政府科学和ICT部(Ministry of Science and ICT)资助)的资助(资助编号:2021R1A3B1068304)。本研究还得到了韩国基础科学研究所(National Research Facilities and Equipment Center)的资助