综述:从微生物组到预测性生态系统:基于人工智能方法的挑战与机遇

时间:2026年6月1日
来源:The Lancet Microbe

编辑推荐:

微生物组系统涵盖多样化的生态位与宿主关联,其规模与复杂性对传统分析框架构成挑战。人工智能(AI)的进展正在重塑微生物组研究,使微生物基因组、群落结构及功能潜力的整合分析能力得到提升。本综述阐述了这些发展如何为微生物组研究创造机遇,使其超越描述性分析,迈向预测建

广告
   X   

微生物组系统涵盖多样化的生态位与宿主关联,其规模与复杂性对传统分析框架构成挑战。人工智能(AI)的进展正在重塑微生物组研究,使微生物基因组、群落结构及功能潜力的整合分析能力得到提升。本综述阐述了这些发展如何为微生物组研究创造机遇,使其超越描述性分析,迈向预测建模与假设生成,包括对微生物功能、宿主-微生物互作以及生态系统层级组织的新兴认识。随着该领域持续应对模型可解释性、可泛化性与因果推断等挑战,新兴策略,如多组学与多队列整合,为深化生物学理解提供了有前景的路径。解决伦理学考量,包括数据隐私、算法偏倚与公平可及性,对于将人工智能驱动的微生物组发现转化为稳健且具包容性的临床应用至关重要。
Introduction: artificial intelligence and the microbiome revolution

文章首先指出,测序技术与分子生物学技术的进步显著扩展了微生物学研究边界。早期依赖培养的方法仅能覆盖不足1%的环境微生物,而高通量测序推动了对大量不可培养微生物群落的系统表征。自16S rRNA测序及随后宏基因组鸟枪法测序建立以来,微生物组逐渐被理解为动态、多界生物组成的复杂生态系统,其内部受竞争、代谢互依与空间组织等生态学规律支配。文章据此提出,微生物组数据具备高维、异质、个体差异显著等特征,传统分析方法已难以充分处理。人工智能(AI)在此背景下成为关键支撑,通过对复杂、噪声性生物数据进行结构提取,推动微生物组研究从描述性统计迈向深层预测与机制探索。文中进一步回顾了支持向量机(SVM)、随机森林、深度神经网络、图神经网络(GNN)及Transformer等模型的发展,并强调“AI for science”正在改变基因组学与生物医学的知识发现范式。作者据此提出“预测性生态系统”概念,即整合数据驱动模型与机制模型,以预测扰动条件下生态系统动力学,并服务于假设检验、干预设计及治疗策略前瞻性评估。

Search strategy and selection criteria

本文采用受范围综述启发的叙述性综述策略,在PubMed与Web of Science中检索人工智能(AI)与微生物组研究交叉领域的代表性和影响性文献。检索范围覆盖数据库建立至2025年12月31日,纳入英文文献。检索词将“microbiome”“microbiota”“gut microbiome”“gut microbiota”等微生物组相关术语与“machine learning”“deep learning”“artificial intelligence”“neural networks”等AI相关术语组合,并根据不同章节补充如“genome assembly”“binning”等特异性关键词。作者同时通过参考文献追溯与迭代扩展方式补充遗漏研究,重点关注2020—2025年的研究以及与微生物组数据分析、预测应用和转化应用密切相关的早期里程碑式研究。文献筛选优先纳入将AI方法直接用于微生物组数据分析,或对预测建模与临床转化具有明确意义的工作,覆盖群落组成、菌株水平变异、功能潜力、宿主-微生物组互作及临床预测等多个层面。文章强调,文献选择主要基于其对概念框架、研究方法、数据整合策略及新兴转化方向的代表性,而非形式化方法学质量评分。

AI-based technologies in microbiome analysis

作者认为,当前AI应用已覆盖微生物组研究流程的多个关键阶段,从原始数据处理延伸至系统层级建模,并逐步构成预测性微生物组科学的基础设施。这一框架由多个模块化分析组件支撑,可实现系统层级推断与转化洞察。文章将这些技术视为构建预测性生态系统的核心路径,反映出研究重点正由单一任务工具开发转向综合性生态系统建模。

Genome assembly and binning

该部分强调,高质量基因组重建是预测性生态系统的基础层,因为其决定了微生物结构与动力学可被解析的分辨率。宏基因组组装长期受限于重复序列、短读长以及微生物染色体内在空间组织等技术与生物学因素,尤其在复杂染色体结构微生物中更为突出。AI方法通过整合多源生物学数据并学习规则方法难以显式编码的复杂模式,提升了组装与校正能力。例如,结合Transformer与染色体构象捕获信息的组装策略体现出生物学约束参与基因组重建的趋势。在评估与修正方面,CheckM2利用机器学习提升了宏基因组组装基因组(MAG)质量评估的准确性,metaMIC等工具则有助于识别错误组装并降低污染。针对binning任务,自监督学习与自编码器模型能够从复杂群落中学习内在组成模式,减少对人工整理参考数据库的依赖,并在物种丰度不均的样本中保持稳健表现。这些进展共同提高了基因组层级表征质量,为后续生态系统预测建模奠定基础。

Identification of mobile genetic elements and modifications

作者指出,移动遗传元件(MGE)与DNA甲基化等修饰是微生物适应宿主或环境压力、介导水平基因转移和调控可塑性的关键动态基因组特征。AI模型在该领域展现出强大的模式识别能力,可从序列中解析复杂生物信号。在MGE识别方面,方法已从单类别检测发展至多类别分类框架,能够在混合组装结果中同时识别质粒与病毒等元件。geNomad被作为代表性实例,显示出跨环境场景的稳健分类性能。更进一步,Evo等大语言模型开始从分类走向功能元件发现与合成设计,能够识别编码区与非编码区中的共进化模式,并辅助发现新型CRISPR及转座系统。在表观遗传修饰检测方面,基于长读长测序的深度学习模型已可在低覆盖条件下准确识别6-甲基腺嘌呤与5-甲基胞嘧啶等常见修饰,并支持实时分析环境扰动下的表观遗传响应。作者还提到,面向特定物种或罕见修饰的定制模型可进一步提高预测精度,而新兴多尺度语言模型则推动多种修饰类型在统一框架中的综合分析。

Species identification and source prediction

该部分聚焦于分类鉴定与来源预测在预测性生态系统中的作用。传统培养法与标记基因测序在高通量、未知分类单元分析中存在速度与分辨率不足的问题,AI通过增强实验与计算两方面方法弥补这一缺口。基于光谱学的机器学习方法可实现无需培养的快速分类鉴定,而序列驱动方法则可直接从原始reads与组装contig中提取判别特征,降低过度分类风险并支持长读长实时分析。对于病毒鉴定,由于病毒多样性极高且数据库覆盖不完整,AI方法尤其重要。相关工具已从依赖预定义病毒标志,发展到可在宏基因组与宏转录组中直接识别DNA病毒、RNA病毒以及高度分化、未表征病毒谱系。LucaProt被用作典型案例,显示深度学习在拓展已知病毒圈层与揭示“病毒暗物质”中的潜力。来源追踪则进一步将分类推断拓展到生态学解释,可用于污染溯源、暴发调查及风险评估,也已被应用于李斯特菌、沙门菌等食源性病原体的流行病学追踪,以及病毒宿主预测与潜在跨种传播风险评估。

Metabolic modelling and community dynamics

文章将代谢建模视为预测性生态系统的功能核心,其作用在于将基因组功能潜力转化为对生长、互作及环境响应的定量预测。AI通过高分辨率通路重建、代谢物预测和关键种识别提升了代谢推断能力。作者指出,AI不再将代谢通路视为静态注释,而是跨多个生物学尺度处理代谢复杂性:在基因层面,可识别必需代谢基因并预测基因获得与丢失模式;对于未注释功能基因,也可依据序列上下文实现直接预测。针对不完整基因组,深度学习与京都基因与基因组百科全书(KEGG)注释整合可提高代谢推断可靠性。在分子层面,基于学习的酶功能模型正逐步超越同源性注释,捕获更深层的生化约束。进一步地,代谢通量分析与基于约束的建模结合AI后,能够从稀疏或异质数据中推断通量、估计动力学参数并重建代谢状态,使预测从事后解释转向前瞻性推演。作者还强调,这一框架已从单菌株代谢工程推广至人工或天然微生物群落,可通过推断资源介导的种间互作,预测协作与竞争行为,并支持功能菌群设计、群落组成优化及群体感应等互作机制调控。

Protein interaction mapping and antimicrobial discovery

在蛋白质层面,AI正在连接基因组信息与可执行生物功能。文章指出,机器学习有助于解决微生物与病毒系统中远缘同源与注释稀缺导致的功能预测困难,尤其在效应蛋白识别等任务中表现突出。结构预测方面,AI已推动分析重心由简单注释转向机制理解,借助大规模序列数据可解析表征不足蛋白及高阶复合体结构,并用于推断蛋白-蛋白互作与蛋白-核酸互作。除单蛋白结构或功能外,AI还改变了研究者对蛋白功能互作的理解方式,即从成对推断延伸至网络层级重建,从而揭示分子协调、调控与信息流动。基于这些能力,AI也被应用于抗菌肽发现,可从微生物群落数据、宿主相关微生物组数据及隐匿基因组区域中挖掘候选分子。作者指出,部分由AI发现的抗菌肽已在体外获得验证,说明蛋白质中心建模正成为分子机制研究与药物开发之间的重要桥梁。

AI-based technologies in host–microbe interactions: from mechanisms to clinical applications

作者进一步将讨论扩展至宿主相关微生物组,强调生态系统层面的预测离不开宿主-微生物互作网络的刻画。这些关系由分子交换驱动,既影响生态系统稳定性,也塑造宿主生理状态。AI方法能够处理高维且具有组成性约束的数据,将微生物共存网络、免疫调控分子界面与临床表型联系起来,并把生态网络信息转化为代谢信号、机制理解与临床可操作结果。

Microbial ecological networks

在微生物生态网络部分,文章回顾了从基于相关性的早期网络推断到结构化依赖学习方法的发展过程。后续方法将微生物共存建模为稀疏、高维、组成性数据上的网络推断问题,从而提高了大样本队列中网络结构重建的可靠性,并开始捕捉不同宿主人群中的网络异质性。研究范围也已从细菌-细菌关系拓展至噬菌体-细菌宿主关系,同时逐步纳入代谢依赖信息,使群落表征更具生态学广度与功能约束。

Microbe–host immune system interaction

在宿主免疫互作部分,作者指出,微生物与宿主系统的分子界面极其复杂,涉及转录调控、蛋白-蛋白互作、代谢交换及免疫信号传导。高通量实验平台虽揭示了大量互作,但仍受成本、样本与实验条件限制。AI驱动方法则将分析从单一分子互作扩展到协调分子系统层面。在基因组和转录组层面,学习模型有助于发现病原体-宿主串扰模式,并将微生物变异与宿主调控响应及代谢耦联联系起来。文中以胆汁酸代谢研究为例,说明计算方法可识别此前未被认识的酶家族和代谢物结构,并揭示其人群广泛性与宿主生理相关性。在蛋白层面,基于序列的推断方法正在用于解析病毒和细菌病原体与宿主之间的直接互作界面,从而将宿主-微生物互作理解为免疫调节与致病过程中的组织化分子程序。

Predicting microbial biomarkers for disease assessment

文章指出,微生物生态系统能够提供与疾病表型相关的非侵入性信号。典型流程包括从粪便、唾液等样本进行微生物谱分析,再通过AI驱动特征选择识别与疾病发生或进展相关的分类单元。机器学习模型已在炎症性肠病、代谢疾病、胃肠道肿瘤以及免疫、神经系统疾病等场景中证明微生物特征可用作诊断与预后标志物。作者强调,这些特征不仅用于分类,也越来越多地被用于提出与宿主病理生理相关的机制性假设。肿瘤学领域进一步显示了微生物标志物在癌症早筛中的潜力,而将微生物组数据与临床变量整合,通常比单独使用微生物特征获得更优预测性能。此外,微生物标志物还可用于反映疾病活动度、进展、感染风险与治疗反应,尤其在癌症免疫治疗疗效预测中表现突出。

Multiomics and multicohort data integration

作者认为,多组学整合是捕捉宿主-微生物互作全貌的关键方向。通过整合基因组、转录组、蛋白质组、代谢组与临床特征,可突破单组学研究的局限,但也面临技术噪声、批次效应和维度不匹配等问题。AI通过学习异质组学层之间的结构化依赖,为这些问题提供了原则性解决方案,使生物标志物发现从单组学关联升级为反映疾病进展与恢复动态的跨组学模式识别。多队列分析则进一步帮助研究者在不同人群中识别可重复出现的疾病相关信号,并校正其他变异来源,从而发现更具泛化能力的微生物模式、治疗反应相关构型以及跨疾病、跨人群稳定存在的微生物组状态。

The emergence of a predictive ecosystem

在这一部分,作者概括指出,AI技术与多尺度数据整合的融合正推动微生物组研究形成“预测性生态系统”框架。该框架把分子、代谢与生态层级视为互联网络,并通过多队列与多组学整合识别单一研究设计无法揭示的规律。作者强调,这种框架不应仅追求预测性能提升,更应实现跨尺度机制理解、前向预测与系统层级解释的统一。

The unfinished shift: structural limitations to a predictive microbiome ecosystem

尽管AI方法已广泛应用,作者明确指出,真正实现预测性生态系统仍面临多层级结构性障碍。首要问题是微生物组数据本身的脆弱性与异质性,包括测序深度不均、实验流程差异、相对丰度数据缺乏绝对定量、参考数据库不完整以及分类与功能注释缺口。这些问题直接削弱模型可解释性与预测稳健性,也导致同一疾病在不同队列中获得不一致生物标志物。文章进一步指出,当前研究普遍仍停留在相关性而非因果性层面,尤其在粪菌移植等临床应用中,群落组成变化常被直接解释为机制驱动因素,却忽略了宿主-微生物及微生物内部生态动力学的复杂网络。与此同时,黑箱AI模型虽然预测性能高,但难以解释预测依据,无法有效支持机制推断与假设生成。临床转化还面临数据隐私、算法偏倚与公平可及性等问题。由于微生物组谱具有较强个体特异性,即使不属于人类基因组数据,也可能成为准身份标识;而训练数据来源的地域和人群偏倚又削弱模型的泛化性与公平性。高算力需求和高分辨率组学数据依赖也可能加剧全球健康资源不平等。

Rethinking the foundation: towards a translational predictive ecosystem

针对上述限制,作者提出,微生物组AI未来发展不能仅依赖任务层面的局部性能改进,而需要建立连接预测建模、生物学解释与干预逻辑的统一视角。标准化样本采集、处理与测序有助于降低技术噪声,但无法消除宿主、环境与时间维度上的生物学异质性,因此仍需利用AI去建模潜在生态结构与动态。多队列、多条件研究设计被视为区分技术伪影与真实生物学变异的重要实践路径。建模层面,作者主张采用与生态组织相一致的模型结构,如生成模型用于模拟扰动下的群落动态,图模型用于显式编码种间依赖与生态约束。与此同时,需要将因果机器学习、Shapley Additive exPlanation(SHAP)类方法、基于注意力或梯度的归因分析等可解释框架引入推断流程,以区分真实效应与伪相关。更关键的是,应将多组学数据与机制模型或约束模型,如代谢网络模型、生物物理模型相结合,把生物学合理性嵌入推断过程。最终,预测性生态系统必须建立在AI预测与实验反馈迭代循环之上,并在临床转化中同步纳入隐私保护分布式学习、可信计算环境、透明治理以及面向资源受限场景的高效部署策略。

Conclusions

结论部分指出,AI与微生物组研究的融合不仅是技术升级,更标志着一种新的统一框架——预测性生态系统——的形成,用以理解、建模并干预作为动态生物系统的微生物群落。尽管AI工具迅速扩展,其真正变革性影响仍受制于数据整合、可解释性与临床转化等核心难题。作者强调,未来需要从碎片化、任务特异性的解决方案转向整合式、机制驱动的框架,并将生态学理论、严格推断与迭代实验验证结合起来,以支持前向预测、因果推理与理性干预。随着基因组重建、分类分析与代谢建模等能力不断融合,微生物组研究正从相关性走向因果性、从描述走向预测、从孤立工具走向系统智能。实现这一愿景仍需构建标准化、可互操作的数据集,开发具有机制可解释性的模型,并建立可将预测结果与实验及临床决策相连接的前瞻性验证流程,同时辅以稳健的数据治理、伦理监管与公平可及性保障。

生物通微信公众号
微信
新浪微博


生物通 版权所有