引言
人体肠道微生物组,尤其是定居于大肠的微生物群落,构成了人体最复杂、最具影响力的生态系统之一。数以万亿计的微生物,包括细菌、古菌、真菌和病毒,共同组成了这个多样化的群落。这些微生物扩展了人类宿主的遗传能力,提供了所谓的“第二基因组”。它们在人类健康中的作用是多方面的:将不可消化的膳食纤维发酵成短链脂肪酸;合成必需维生素;调节胆汁酸代谢;帮助免疫系统发育;甚至通过肠-脑轴影响神经信号传导。当这个生态系统被抗生素、饮食、生活方式或遗传易感性破坏时,它与多种疾病相关,从代谢综合征和心血管疾病到自身免疫和神经精神疾病。因此,肠道微生物组已成为精准医学的核心,即根据个体的生物学特征定制治疗方案。
然而,尽管肠道微生物组意义重大,将微生物组成与宿主生理联系起来仍然是一个艰巨的挑战。肠道微生物的多样性是惊人的,不仅因人而异,而且在同一个体内也会随时间波动,这使得识别一致的生物标志物或治疗靶点变得困难。许多肠道微生物无法用传统的实验室方法培养。此外,专注于单一物种或途径的还原论方法往往无法捕捉整个微生物群落的新兴特性。为了解决这个问题,研究人员需要能够整合多个层面复杂性的方法,因为宿主与微生物的相互作用是由饮食、遗传和环境因素介导的。
这篇综述重点介绍了计算方法如何重塑我们对肠道微生物组及其治疗影响的理解。基于上述挑战和机遇,我们将讨论分子组学、代谢组学、基于酶的生物信息学以及人工智能(AI)驱动的预测模型在阐明肠道微生物在健康和疾病中的作用方面的应用,重点关注2020年以来报道的进展。最后,我们将讨论将计算工具应用于微生物组研究的当前挑战和未来展望。
微生物组研究中的分子组学策略
分子组学技术,即宏基因组学、宏转录组学和宏蛋白质组学的进步,已将肠道微生物组研究从群落组成的描述性调查转变为对微生物活动如何调节宿主代谢以及如何为新型治疗策略开发提供信息的机制性研究。遵循这种范式转变,计算工具通过能够分析分子组学实验产生的大规模数据集,为这种转变提供了基础。
使用计算流程,原始DNA测序读数可以被处理以识别微生物分类群、注释功能基因并重建宏基因组组装基因组,从而提供以基因组为中心的微生物群落潜力视图。例如,metaGEM等工具直接从宏基因组中重建基因组尺度、通量平衡分析就绪的代谢模型,从而支持群落水平建模并为疾病相关微生物组生成机制假设。此外,人类肠道微生物组的生物信息学分析能够评估特定酶的分布。例如,生物信息学分析发现,Enterocloster bolteae DesE(一种被证明可以还原药物如萘丁美酮和他克莫司中酮基的酶)的同源物分布广泛,这凸显了计算方法如何绘制肠道微生物组中外源物修饰活性的图谱。比较宏基因组学进一步允许识别在健康和疾病相关人群中差异富集的关键肠道微生物、基因和代谢途径。例如,一项对超过11,000个全球宏基因组的大规模荟萃分析确定CAG-170属为健康的候选生物标志物,其显著之处在于尽管缺乏精氨酸生物合成基因,但仍能产生维生素B12 。同时,另一项对378名终末期肾病患者和290名健康对照者的大规模宏基因组分析揭示了广泛的肠道微生物组改变,识别出348个差异丰富的物种和疾病相关的功能通路,将微生物组成与慢性肾病进展联系起来。
除了仅关注(宏)基因组学的研究外,(宏)转录组学和(宏)蛋白质组学可以阐明肠道微生物蛋白质和途径如何转化为生理结果。例如,宏转录组学分析在人类肠道细菌Gordonibacter pamelaeae中发现了一种儿茶酚脱羟酶,该酶可对羟基咖啡酸进行脱羟作用。Stamboulian等人展示了宏蛋白质组学在物种水平功能注释方面的能力,并开发了GutBac,一个用于研究人类肠道微生物组的在线资源。其他研究使用了多组学策略来阐明宿主-微生物组相互作用。例如,Qin等人整合了19名结肠癌患者的肿瘤和正常粘膜组织的16S rRNA、宏基因组和转录组分析。他们的工作揭示了不同的微生物和基因表达谱,与胆汁分泌和免疫调节相关的空肠弯曲杆菌富集,以及与患者生存相关的新型微生物分类群。
代谢组学及其在肠道微生物组功能洞察中的作用
肠道微生物组拥有广泛的生物合成能力,产生数百种可以调节宿主生理的小分子。为了系统地探索这种潜力,gutSMASH被开发用于大规模检测初级代谢基因簇,在4240个高质量微生物基因组中识别出近19,890个簇,从而为特定分类群如何影响微生物组的化学景观提供了基础性见解。虽然gutSMASH可以预测肠道微生物的生物合成潜力,但代谢组学提供了其功能输出的直接读数。通过分析粪便中的小分子,代谢组学可以直接捕获肠道微生物代谢的最终产物。例如,Zimmermann等人和Javdan等人使用代谢组学全面绘制了肠道微生物组的药物代谢图谱,识别了新的药物-微生物组相互作用,这些相互作用在微生物和个体之间存在差异。另一项对127种G蛋白偶联受体靶向药物的系统性比较代谢组学分析揭示,人类肠道共生菌广泛地重塑药物结构及其活性,揭示了跨分类群的内在和协作代谢过程。除了提供肠道微生物代谢的快照外,将代谢组学数据与宿主表型整合可以提供对微生物组-宿主相互作用的整体理解。例如,代谢组学分析显示,肝炎小分子药物黄芩苷可以通过调节肠道微生物对短链脂肪酸的代谢来克服抗PD-1免疫疗法的耐药性。使用类似策略,川陈皮素在预防和干预代谢相关脂肪性肝病中的作用也得到了证实。此外,肠道微生物组介导的人参皂苷、胆汁酸和短链脂肪酸的调节也被认为与缓解疲劳相关的代谢异常有关。超越代谢性疾病,代谢组学分析进一步将帕金森病的早期阶段与丙氨酸、甜菜碱和烟酰胺的丰度联系起来。这些代谢物可以直接被肠道微生物处理,并且在患者样本中水平降低,强调了肠道菌群失调对帕金森病发病机制的潜在贡献。
将代谢组学与分子组学数据整合提供了额外的洞察层,增强了识别与宿主健康最相关的微生物代谢途径的能力。例如,研究人员结合肠道微生物组测序和代谢组学发现,益母草碱调节微生物组成和代谢能力, notably enhancing AdoCbl biosynthesis and methionine regeneration from homocysteine, which may confer cardioprotective effects. 最近一项研究利用弗雷明汉心脏研究1429名参与者的粪便宏基因组学和代谢组学数据,揭示了与心血管疾病相关的关键微生物途径,包括涉及类黄酮、γ-丁酰甜菜碱和胆固醇代谢的途径。值得注意的是,胆固醇代谢功能在不同的Oscillibacter sp.中是保守的,这强调了在心血管疾病中进行微生物组信息风险分层的潜力。除了对心血管健康的治疗作用外,通过多组学研究,肠道微生物组也被认为与炎症和代谢性疾病有关。例如,Mehta等人将肠道微生物组的硫解酶和酰基辅酶A N-酰基转移酶确定为炎症性肠病(IBD)患者治疗失败的因素,而Vich Vila等人回顾了代谢组学如何导致识别用于IBD预后和治疗的微生物衍生代谢物。此外,丁酸盐及其肠道微生物生产者(Clostridium spp.)已被确定为肌痛性脑脊髓炎患者的代谢和微生物生物标志物。另外,Xia等人报道,肠道微生物组内短链脂肪酸的产生可能会破坏儿童肥胖中的脂质代谢。肠道微生物组与大脑功能之间的关联也通过多组学研究得到阐明,这些研究强调了潜在的肠道微生物代谢途径。例如,研究人员通过发现重度抑郁症患者中丙酮酸显著增加和柠檬酸盐减少,证明了代谢组与肠道微生物之间的相互作用。此外,饮食酪氨酸被肠道微生物生物转化为4-乙基苯酚已被证明可以改变大脑中的基因表达,导致小鼠模型中出现焦虑样行为。
除了个别案例研究,整合计算框架和精选数据集正在成为从多组学数据中揭示复杂微生物组-疾病关系的强大工具。例如,Muller等人开发了‘MintTea’,一个强大且通用的中间整合计算框架,它结合代谢组学和分子组学数据,以跨分子过程识别稳健的、疾病相关的微生物组特征。将这种方法应用于代谢综合征和结直肠癌队列,MintTea揭示了连接微生物物种、代谢物和宿主途径的模块,说明了整合分析在生成微生物组-疾病相互作用的系统水平假设方面的能力。同时,gutMGene数据库被开发出来,用于系统地编译经过实验验证的肠道微生物、微生物代谢物、宿主靶基因以及相关疾病和治疗干预措施之间的关系。它提供了一个交互式平台,用于探索微生物基因代谢物相互作用,研究微生物在疾病发生和进展中的作用,并预测潜在的基于微生物组的候选药物。
基于质谱的平台及相关计算工具的进步在过去5年中进一步提高了分析微生物代谢物的灵敏度和重现性。非靶向质谱数据的分子网络已被开发用于促进新代谢物的发现,为剖析微生物组-宿主相互作用提供了新的机会。此外,Han等人开发了一个专注于微生物组的代谢组学流程,通过利用基于质谱的参考库来检测厌氧生化活性,有效地将微生物组成与宿主相互作用联系起来。该平台提供了公开可访问的资源,以促进微生物组-代谢物关联研究。除了代谢物鉴定,另一个计算工具LOCATE(微生物组和代谢物关系的潜在变量)被开发用于预测代谢物浓度,其波动也会影响宿主代谢。
连同Puig-Castellví等人的全面综述一起,这些研究强调了代谢组学在阐明肠道微生物组活动在健康和疾病中的功能后果方面的核心作用,该综述总结了整合代谢组学和宏基因组学数据用于人类肠道微生物组及其临床应用方面的进展。
酶生物信息学及其在肠道微生物组功能和治疗中的作用
虽然代谢组学提供了肠道微生物组生化输出的见解,但专注于酶的生物信息学使研究人员能够精确定位负责这些转化的特定催化剂。本节重点介绍使用计算和生物信息学工具从一级序列预测肠道微生物酶功能。这种方法有助于阐明肠道微生物组如何产生或生物转化具有治疗相关性的生物活性化合物。通过表征这些酶,研究人员可以实现对宿主-微生物相互作用的分子水平理解,并可能设计具有定制酶活性以进行靶向干预的微生物群落。
已经开发了几个预测平台来支持这项工作。例如,GutBug使用机器学习根据特定的化学底物预测细菌酶的酶学委员会编号以及携带这些酶的微生物。它提供了超越基本酶识别的可操作见解,使得能够明智地设计益生元、营养保健品、个性化饮食策略和药物开发方法。其预测性能受到训练数据限制、基于结构推断的依赖以及缺乏定量代谢背景的制约。这些限制在当前微生物组生物转化预测工具中很常见,并突出了在计算预测之外进行实验验证的必要性。MicrobeRX扩展了这一概念,它整合了来自DrugBank的3650个药物代谢反应以及超过4000个微生物和5400个人类反应,通过代谢物可视化以及酶或分类学分析模块,将肠道微生物组的遗传和化学景观联系起来。通过成功识别出1083种口服药物经微生物酶产生的5878种结构多样的代谢物,证明了其在生物医学和工业应用中的广泛实用性。通过将基因组数据与预测的化学转化联系起来,MicrobeRX释放了肠道微生物组的化学潜力,使其成为人类健康、食品科学、制药和环境安全领域研究和创新的宝贵资源。与许多代谢物预测工具一样,当潜在的反应机制或酶尚未完全表征时,MicrobeRX可能会遇到困难,因此即使是实验观察到的代谢物也可能难以高置信度地预测。尽管受到当前知识空白的限制,MicrobeRX提供了一个可扩展的框架,可以用新的反应数据更新,增强其预测先前未表征代谢物的能力。Cui等人开发了EZSpecificity,一种先进的图神经网络,可以理解分子的三维形状,并使用交叉注意力系统来学习酶与其底物如何相互作用。它是一个多功能工具,与生物催化、合成生物学、酶工程和药物发现广泛相关,并且未来纳入动态结合信息有望进一步提高其预测能力。EZSpecificity在识别正确反应底物方面表现出91.7%的准确率,相较于领先的现有酶-底物预测模型58.3%的准确率有显著提高。INTEDE数据库整合了微生物组衍生酶、外源物和宿主药物代谢酶之间的相互作用。类似地,由Medicen等领导的多方合作倡议强调了以酶为重点的微生物组工具如何可以直接整合到药物发现和开发管道中,加速向治疗方法的转化。同样,计算模型如“识别微生物组酶促反应的相似性算法(SIMMER)”结合了化学和蛋白质相似性算法来预测特定反应的负责物种和酶;这种方法已经应用于抗关节炎药物甲氨蝶呤的代谢。除了药物代谢,酶生物信息学也揭示了参与胆汁酸转化的微生物酶。为了弥合差距,预测有40多种酶介导这些反应,其中少数已通过实验验证。人工智能辅助的流程如BEAUT已被开发出来,以更准确地识别肠道微生物胆汁酸代谢酶。总的来说,这些进展证明了酶生物信息学如何通过揭示微生物代谢背后的分子机制来促进微生物组研究,这一概念在Jia等人关于从肠道微生物组中发现和挖掘酶的新兴技术的综述中得到了进一步扩展。
用于肠道微生物组研究的人工智能
人工智能和机器学习已成为微生物组研究中不可或缺的工具,能够分析复杂的、高维度的数据集并生成预测性见解。通过整合分子组学、代谢组学和临床表型,人工智能模型可以捕捉肠道微生物组与宿主健康之间的非线性关系,超越传统的统计方法。例如,Wang等人通过对274名结直肠癌患者的数据集应用多组学整合聚类和机器学习模型,证明了肠道微生物组与肿瘤微环境之间的复杂相互作用。Moghaddam等人引入了一个机器学习框架,用于将转录组学、代谢组学和脂质组学数据集整合到多模态网络中,以将微生物代谢物与衰老代谢中的免疫调节联系起来。此外,研究人员还研究了应用机器学习来预测外源物在肠道细菌中的稳定性。例如,一个名为MoleculeX的机器学习平台已被用于预测产孢梭菌对小分子的代谢能力,这可以通过指导靶向验证来显著减少实验负担。另外,机器学习已被用于精准肿瘤学中分析肠道微生物组,以增强用于结直肠癌风险预测和管理的无创工具。更多针对微生物组研究的人工智能应用可以在Wu等人、Chetty和Blekhman、Abavisani等人、D’Urso等人、Li等人以及Wan的综述文章中找到。随着人工智能驱动的方法不断发展,对于揭示宿主-微生物组相互作用的复杂性以及指导精准医学策略至关重要,伦理和方法学考虑也正在出现,并已被Alexandrescu等人和Patil等人综述。
结论与未来展望
肠道微生物组研究正迅速朝着计算和实验方法整合的方向发展。当前先进计算方法的出现,如分子组学、代谢组学、基于酶的生物信息学和人工智能,正开始实现对肠道治疗效果的机制性理解。通过计算创新解锁肠道微生物组的治疗潜力,我们离实现精准医学的承诺更近了一步,即基于微生物组信息的策略可以常规应用于疾病预防、诊断和治疗。然而,尽管最近取得了进展,一些挑战仍然存在。当前的分子组学通常产生的数据无法轻易映射回原生微环境,限制了机制性解释。虽然计算工具在从宏基因组中重建完整基因组方面有所改进,但从基因组水平信息推断更高阶的宿主-微生物相互作用仍然需要大量的人工管理,为机制性理解创造了瓶颈。虽然存在用于时间序列和多组学整合的强大工具,但工作流程和报告缺乏标准化继续阻碍了可重复性和更广泛的采用。建立更全面、经过管理的公共数据库将进一步增强计算分析并支持稳健的跨研究比较。展望未来,人工智能在应对这些挑战和推动该领域发展方面具有巨大潜力。开发开源、用户友好的计算平台,最好由直观的图形界面支持,对于使这些工具更广泛地被生物医学界使用至关重要。同样重要的是努力提高模型的可解释性,并促进连接生物学、医学和计算科学的跨学科培训,确保计算进步转化为有意义的临床应用。
打赏