河流生态系统是地球生物地球化学网络中的关键节点,不仅作为陆地到海洋物质传输的通道,还作为调节碳、氮等元素的关键转化的动态生物反应器(Aufdenkampe等,2011;Battin等,2023)。微生物群落通过多种代谢活动(包括碳呼吸、硝化、反硝化和固氮)驱动这些过程,从而调节生态系统功能和全球温室气体通量(Karimi等,2017;Whitman等,1998)。核心微生物组的概念已经出现,用于识别在时空梯度中持续存在并保持关键生态功能的系统发育保守的分类单元。核心微生物组分类单元作为环境生物传感器,将累积的压力因素整合成可测量的群落级特征(Kuang等,2016),使其成为生态系统健康评估和预测建模的宝贵指标。然而,在大型河流网络中,微生物群落的高多样性和动态性质使得从环境驱动因素定量预测核心微生物组的结构和功能变得具有挑战性。
传统上,微生物生态学依赖于线性统计模型和经典方法,如共现网络、基于生态位的模型和基于机制的动力学公式来描述群落模式并推断组装机制,而不是明确预测微生物群落的组成和功能(Averill等,2022;Gonzalez等,2012;Monod,1949;Volterra,1926)。当前关于河流微生物组的研究围绕两个主要范式展开:通过基于标记基因的方法进行分类特征描述以界定生物多样性模式(Buttigieg和Ramette,2014;Kolmakova等,2014;Read等,2015),以及研究群落组装机制,这些机制对比了环境过滤(例如pH和营养梯度)与随机组装过程(例如扩散限制)(Geng等,2024;Ramoneda等,2023;Wu等,2022)。虽然这些框架大大推进了我们对微生物生态学的理解,但它们主要是描述性和定性的,依赖于加性、独立性或低维相互作用的假设,而这些假设在受水文、气候和地球化学梯度影响的河流生态系统中很少得到满足(Lin等,2014;Ovaskainen等,2017;Ruiz-González等,2015;Shi等,2016)。
机器学习提供了一种数据驱动的替代方法,能够捕捉环境驱动因素与微生物群落响应之间的高维和非线性关系(Ghannam和Techtmann,2021)。近年来,随机森林、极端梯度提升(XGBoost)和基于神经网络的模型已被成功用于预测淡水、土壤和河口生态系统的微生物群落组成和功能基因丰度(Thompson等,2019;Wang等,2024)。然而,当扩展到大型、空间异质性的河流系统时,现有的计算框架仍然存在关键限制。广泛使用的模型如XGBoost通常将微生物分类单元视为独立特征,从而忽略了微生物组数据固有的组成约束,而具有组成意识的方法,包括用于组成微生物组数据的基于核的回归框架KernelBiome、用于组成数据分析的深度学习(DeepCoDA)和组成神经常微分方程(cNODE),往往受到有限的可扩展性、限制性假设(例如线性分解或通用动态)的约束,或者专注于分类而不是端到端的群落结构和功能重建(Abe等,2021;Chen和Guestrin,2016;Huang等,2023;Michel-Mata等,2022;Quinn等,2020)。在这些假设在具有强烈空间异质性和显著环境梯度的大型河流流域中很难得到证明。
由于微生物组数据集通常由稀有和短暂的分类单元主导,因此基于丰度-占位标准(例如,≥90%的样本出现率和≥0.1%的相对丰度)的核心微生物组方法常用于识别生态上持久且功能上相关的群落成员(Shade和Stopnisek,2019)。除了这些通用建模框架外,最近还提出了一些直接从微生物组数据中识别核心或功能重要分类单元的方法。集成商数量优化(EQO)寻找其组合丰度最好解释环境或功能变量变化的分类单元集合,提供了一种无需注释、数据驱动的方法来从复杂群落中划分功能类群(Shan等,2023)。基于深度学习的基石物种识别(DKI)框架类似地量化了几乎移除单个分类单元对群落组成或功能的预测影响,从而根据它们的“基石性”对分类单元进行排名(Wang等,2023)。这些方法为发现具有特定表型的核心或基石群体提供了强大的工具,但它们并不是作为端到端的、组合模型设计的,能够共同预测环境梯度上的群落组成和功能谱型。因此,河流微生物组研究仍然缺乏能够将环境梯度映射到流域尺度上的分类结构和功能特征的定量、具有组成意识且生态上可解释的预测模型。
淡水环境中的微生物群落是重要的生物指标,对环境压力、水质和土地利用强度高度敏感(Cirella(编)和Zerbe(编),2014)。在本研究中,微生物阈值指的是沿环境梯度的生态临界点,在这些点上环境变量对分类单元丰度或功能潜力的边际效应的方向或大小发生非线性变化。研究应用了分段回归、高斯模型和阈值指示分类单元分析等方法来识别微生物阈值(King和Baker,2010)。阈值作为制度转变的早期预警指标,可以指导在河流景观中设定安全操作或建设限制的监管工作(Kelly等,2015;Zhang等,2024)。然而,人类活动(例如土地利用强度)与流域微生物动态之间的关系,以及微生物对气候、水文和地理因素的空间依赖性和阈值范围仍然知之甚少。
因此,为了克服这些限制,开发了一种组合神经编码器-解码器(cNED)框架,以系统地研究环境因素对河流微生物群落的分类结构和与碳/氮相关的功能特征的联合影响。该模型架构整合了多维环境变量,以同时预测微生物群落组成和功能谱型。为了阐明影响微生物群落的关键因素,采用了Shapley加性解释(SHAP)分析来定量评估特征重要性。基于这些发现,引入了临界点和浓度窗口的概念作为微生物群落组成和功能谱型的调节机制。本研究为河流生态系统中的靶向微生物代谢管理建立了理论框架,为环境监测和生物修复策略提供了宝贵的见解。