代谢组学软件开发已加速发展,但目前缺乏系统性分析来量化其在计算方法、地域分布及研究群体技术采纳方面的演变趋势。代谢组学研究群体迫切需要跟上可及且免费的计算工具与资源的快速扩展步伐。鉴于自2021年以来缺乏此类综述,同时考虑到离子迁移质谱(IM-MS)、单细胞及空间代谢组学以及基于多模态组学发现的进展激增,研究人员提供了一个精选数据库,汇总了来自37个类别、从数据预处理到代谢物注释的746种基于质谱和光谱的工具。研究人员报告了四个重新定义该领域轨迹的结构性转变。首先,工具中的机器学习(ML)采用率从2021年的10.9%增长到2025年的26.6%,增幅达2.4倍。其次,注释作为一个类别拥有最多的工具(16.8%),并在所有提议的工具类别中获得了最高的ML投入。主导策略已从2021年的谱库匹配转变为2024年的谱图预测,以及最近的2025年从头结构生成,从而逐步降低了对可获取实验谱图参考数据库的依赖。第三,Python已取代R成为主导编程语言,其急剧转折点出现在2023年,与ML的兴起同步,而仅基于网络服务器的工具则急剧减少。第四,Transformer架构显著增长,2025年出现了首批基于大型语言模型(LLM)和其他多模态代谢组学工具,标志着从特定任务分类器向预训练、可迁移表征的过渡。与此同时,预印本作为发表场所的采用率也上升了2.5倍,值得注意的是,基准测试和可解释性的提及量分别增长了8-18倍,表明整个领域的需求和成熟度日益增长。该计算代谢组学数据库现已在此提供:https://github.com/enveda/computational-metabolomics-review。
**论文解读文章**
**研究背景与问题**
代谢组学作为常规分析手段,用于解析生物体表型、化学通量及环境相互作用。随着技术进步产生高度复杂、高维度的大规模数据集,对快速且稳健的预处理、注释和可视化工具的需求空前迫切。然而,该领域的计算基础设施面临持久挑战,限制了其在人类健康、生物医学、动物健康、农业、微生物学和环境研究中的转化应用。核心问题包括:非靶向代谢组学数据集中代谢物的注释率极低(通常低于2–10%),存在大量未表征的“暗代谢组”;光谱数据库覆盖有限,缺乏大规模、标准化的基准测试集;人工智能/机器学习(AI/ML)模型的泛化能力不足;多组学数据整合存在异质性;以及数据处理和分析缺乏标准化,导致可重复性危机。此外,空间和单细胞代谢组学、离子迁移质谱(IM-MS)等新兴模态的出现带来了新的软件分析挑战。尽管领域内工具和资源发展迅速,但过去五年来缺少一份对该细分领域进行系统性编译和更新的综述。为此,研究人员开展了这项工作,旨在通过系统性地梳理2021至2025年间涌现的计算资源,量化该领域的演变趋势,识别核心挑战,并为未来发展提供方向。
**研究开展与总体结论**
研究人员实施了一套系统性的方法,从期刊、预印本服务器、代码仓库及文献中,系统检索并人工筛选出2021年至2025年间发表的746个计算代谢组学工具和资源,将其元数据(包括分类、编程语言、发表年份等)整合到一个公开的精选数据库中。基于对该数据库的深入分析,研究人员揭示了四个定义该领域轨迹的结构性转变:机器学习(ML)在工具中的采用率大幅增长;代谢物注释策略从依赖谱库匹配向谱图预测及从头结构生成转变;编程语言生态从R主导转向Python主导,特别是随着深度学习(DL)的兴起;以及Transformer架构、生成式模型和大型语言模型(LLM)等新范式的兴起。研究同时指出,尽管工具数量增长迅速,但领域在基准测试、可解释性以及与分析化学基础测量科学(如测量不确定度量化、验证标准)的结合方面仍显不足。因此,研究人员得出结论:计算代谢组学的未来发展将依赖于社区驱动的基准测试、开放数据共享、FAIR(可查找、可访问、可互操作、可重用)原则的遵守,以及可解释的ML模型。这项研究的重要意义在于,它不仅提供了一个宝贵的工具资源库,还清晰地描绘了技术发展的宏观图景和亟待解决的挑战,强调了加强计算工具开发与分析测量科学基础之间联系的必要性,以加速代谢组学在精准医疗、环境监测和天然产物发现等领域的发现与转化进程。论文发表于《Analytical Chemistry》。
**主要关键技术方法**
研究人员主要采用了系统性文献检索与元数据策展的方法。首先,通过设定检索策略,在Google Scholar、PubMed等平台进行广泛搜索,并利用大型语言模型(LLMs)辅助识别来自预印本、GitHub等非传统渠道的工具,以覆盖2021年1月至2025年12月期间发表的软件、数据库和算法。其次,对检索到的资源进行系统筛选和分类,根据工具的主要功能,使用一个包含37个类别的迭代开发层次分类法进行归类,该分类法参考了先前的方案并涵盖了单细胞代谢组学、空间代谢组学等新兴子领域。整个过程由领域专家团队(包括合著者)进行多轮审查和交叉核对,以确保全面性并减少主观偏差。最终成果为一个公开在GitHub上的交互式数据库,包含工具的详细元数据。
**研究结果**
**发表场所与作者分布趋势**
分析显示,该领域最受欢迎的发表场所是《Analytical Chemistry》(占比18.4%)、预印本服务器BioRxiv(8.8%)和《Bioinformatics》(7.6%)。三个表明领域成熟的指标同时出现:基准测试提及量增长8倍,可解释性/可解读性提及量增长18倍,开源提及量约翻倍。中国在代谢组学软件开发中的份额从2021年的5%增长至2025年的25%,其工具高度偏向于注释、预处理和保留时间(RT)预测,且采用ML/DL的比例(35%)显著高于美国(19.6%)。美国份额从2023年的32.4%降至2024年的29.3%,但其在数据库类别领先。欧洲的份额则从2021年的45.5%收缩至2025年的32.0%。全球顶尖研究机构包括阿尔伯塔大学(加拿大)、瓦赫宁根大学与研究中心(荷兰)和太平洋西北国家实验室(美国)。
**编程语言使用与演变趋势**
Python(48.2%)已成为主导编程语言,其次是R(27.7%)和JavaScript(5.1%)。Python的崛起在2023年出现急剧转折,与DL方法的兴起(采用率从2021年的10.9%增至2025年的26.6%)高度相关,超过90%的DL工具使用Python编写。这导致Python在注释和RT预测领域几乎完全取代了R。与此同时,基于网络服务器的工具比例在2023年达到峰值(22.6%)后,在2025年降至13.3%,表明社区正从黑箱网络门户转向透明、可本地安装的Python包。
**工具类别分布与引用分析**
在37个主要工具类别中,注释类(16.8%)、预处理类(8.8%)和专用工具类(6.5%)占比最高。代谢物注释作为最大且投入最多ML的类别,其主导策略已从2021年的谱图相似性检索(谱库匹配)转变为2024年的谱图预测,并在2025年转向从头结构生成。深度学习(DL)方法在注释工具中的采用比例从2021年的35.7%翻倍至2025年的67.4%。高被引工具包括MetaboAnalyst 5.0/6.0、HMDB 5.0、MZmine 3和CANOPUS。
**深度学习架构、生成式模型与大型语言模型的浪潮**
2021-2025年期间出现了三个明显的深度学习趋势:新架构主干、新训练与表征范式以及新生成范式。基于Transformer的模型增长超过8倍,图神经网络(GNNs)增长7倍,取代了基于CNN和传统ML的方法。对比学习和基于大型自监督、预训练基础模型的方法成为主流。在生成式结构解析方面,从自回归token生成开始,到2025年出现迭代去噪扩散模型。2025年还首批出现了使用生成式大型语言模型(LLM)作为核心组件的代谢组学工具。
**工具性能、鲁棒性与采纳的关键评估**
计算代谢组学持续存在的瓶颈是缺乏标准化的、社区范围的基准测试数据集或工具。与蛋白质组学中的CASPR实验或基因组学中的CASP相比,代谢组学领域的基准测试(如CASMI)在规模和持续性上不足。现有研究表明,不同数据预处理工具之间存在显著不一致性,且注释工具的评估缺乏跨化学类别、基质、仪器类型或电离模式的系统性比较共识。
**计算代谢组学管道中的测量质量、验证与可重复性**
计算代谢组学工具开发中一个尚未充分探索的关键维度是将基础分析化学原理(测量不确定度量化、光谱质量评估、方法验证和可重复性标准)明确集成到软件设计和评估中。数据处理选择(如峰面积与峰高定量)会引入独立于分析仪器的测量误差。质量控制在代谢组学中常被忽视,依赖非标准化、报告不佳的协议。分析性能(灵敏度、选择性、线性动态范围)限制了计算工具能从原始数据中提取的有意义信息。当前实践在QC样本使用、制备和报告方面存在广泛不一致性,影响了计算工具产出特征和注释的可靠性。
**研究结论翻译**
在此视角文章中,研究人员超越了一个简单的工具目录,展示了一个精选的、涵盖2021-2025年间的746个计算资源数据库。研究人员批判性地评估了主要的方法论趋势,评估了连接计算发展与分析化学原理的反复出现的挑战,并阐述了该领域未来轨迹的愿景。此视角强调需要加强计算工具开发与分析测量科学基础需求之间的联系——包括测量不确定度量化、光谱质量指标、严格的验证基准和可重复性标准,这些对于将代谢组学发现转化为可靠的生物学和临床见解至关重要。展望未来,机器学习(ML)和深度学习(DL)将继续重塑代谢组学、暴露组学和脂质组学领域。大规模、高质量的基础模型将有助于注释新化合物。计算代谢组学的未来仍处于社区驱动的基准测试、开放数据共享、遵循FAIR标准以及可解释ML模型的十字路口,这些因素能够加速发现和转化。研究人员精选的数据库和分类方案仅旨在帮助研究人员导航不断扩展的领域,并优先发展与这些目标一致的工具开发。最后,研究人员倡导开展类似于蛋白质组学和化学信息学领域的协作性基准测试倡议,其中使用标准化数据集和评估指标的盲评挑战能够实现注释和预处理工具的客观比较。通过此类社区范围的努力,计算创新能够更有效地推动代谢组学及其在精准医疗、环境监测和天然产物发现中的应用。