一种基于知识引导的混合神经网络，用于提升土壤有机碳的预测精度

时间：2026年5月16日

来源：Geoderma

编辑推荐：

毛国|林阳|岳普|严白|刘家航|沈飞雪|周成虎|潘德鲁中国南方海洋科学与工程广东实验室（广州），广州511458 **摘要** 土壤有机碳（SOC）在全球碳循环中起着重要作用，但由于多种环境因素导致的显著空间异质性，使其准确预测变得具有挑战性。知识引导的机器学习作

毛国|林阳|岳普|严白|刘家航|沈飞雪|周成虎|潘德鲁
中国南方海洋科学与工程广东实验室（广州），广州511458

**摘要**
土壤有机碳（SOC）在全球碳循环中起着重要作用，但由于多种环境因素导致的显著空间异质性，使其准确预测变得具有挑战性。知识引导的机器学习作为一种有前景的解决方案受到了广泛关注，因为纯数据驱动的方法往往缺乏可解释性。结构方程建模（SEM）通过量化环境因素对土壤性质空间模式的影响来提供知识，这促使了其与机器学习的结合。然而，现有的SEM-机器学习集成方法通常通过输入增强或结构约束来工作，这些方法往往假设先验结构是详尽的，从而限制了模型的适应性，并未能捕捉到环境数据的内在复杂性和非线性模式。为了解决这一限制，我们开发了一种SEM引导的混合神经网络（SEM-HNN），它将SEM的结构拓扑转换为模块化神经架构，并与一个并行的、无约束的神经分支动态融合。在中国东部农田SOC预测中的验证表明，SEM-HNN的性能优于纯数据驱动模型（无约束神经网络）和传统的SEM集成方法（即特征增强和样本加权）。具体来说，它实现了更高的准确性（平均R²为0.554）和更低的预测变异性（标准差=0.137，而纯神经网络为0.163）。值得注意的是，SEM-HNN具有较高的架构效率，使用比纯神经网络更少的隐藏神经元就能达到相当或更好的性能。此外，这种混合设计确保了对不完整先验知识的鲁棒性，即使在SEM的内在解释能力有限的情况下也能保持性能。总体而言，这项研究为土壤性质的空间预测提供了一种新颖且稳健的知识引导机器学习方法。

**1. 引言**
土壤构成了最大的陆地碳汇（约2,500 Pg C），在全球碳循环中发挥着至关重要的作用（Lal等人，2021年）。土壤有机碳（SOC）是这一储库的关键组成部分，影响着土壤肥力、生态系统功能，并确保长期碳储存（Chaopricha和Marín-Spiotta，2014年；Li等人，2025年）。因此，获取准确的SOC信息对于环境监测、碳核算和全球库存评估至关重要。

尽管对高分辨率SOC空间信息的需求不断增长，但由于现场采样的高成本和劳动强度要求，直接调查仍然受到限制，尤其是在长期和大规模应用中。因此，基于机器学习或地理统计方法生成的土壤与环境变量之间关系的数字土壤制图（DSM）已成为不可或缺的工具（Padarian等人，2019年；Wadoux等人，2020年）。在DSM中，随机森林（RF）和神经网络（NN）等机器学习模型展示了出色的非线性拟合能力和预测性能（Taghizadeh-Mehrjardi等人，2021年；Zeng等人，2022年；Oukhattar等人，2025年）。然而，纯数据驱动的机器学习模型固有的不可解释性未能捕捉到控制土壤碳循环的环境机制，从而可能限制了它们的预测准确性（Gunarathna等人，2019年；Zeraatpisheh等人，2019年）。知识引导的机器学习（KGML）作为一种有前景的方向，通过结合外部科学知识来克服纯数据驱动方法的局限性（Ding等人，2025年；Karniadakis等人，2021年；Krasnopolsky，2024年）。最近的研究探索了将基于过程的或领域知识与机器学习的集成（Samarinas等人，2025年；Tao等人，2023年；Liu等人，2024年），并取得了初步的改进。基于土壤碳过程的模型，如DNDC、CENTURY和RothC，模拟了关键的生物地球化学动态，并通过混合建模或参数校准与机器学习相结合以提高准确性（Xie等人，2024年；Padarian等人，2019年）。例如，生态系统过程知识已被整合到GRU网络中，用于预测美国中西部的农业碳通量和土壤碳储存（Liu等人，2024年），或者用于从RothC生成未采样年份的伪训练数据，并将模型输出嵌入损失函数中以改进SOC的时空预测（Zhang等人，2024年）。最近的研究还探索了将领域知识（即专家制定的规则或经验模式）直接嵌入网络架构中，使用卷积层来捕捉空间自相关性或层次化输出，以确保预测的土壤性质符合土壤剖面的垂直模式（Minasny等人，2024年）。尽管它们具有优势，但当前的KGML模型通常受到过程模型参数密集或领域知识不完整或不确定的限制，这两者都缺乏处理不确定或错误指定的先验知识的适应能力，可能影响预测的可靠性。

另一方面，描述变量如何影响目标的模型提供了关于生态系统相互作用的不同形式的知识。结构方程建模（SEM）作为一种代表性的方法，明确地表征和量化了将环境因素与目标变量联系起来的直接和间接路径。虽然SEM在分析控制碳循环和气候-生物圈相互作用的驱动机制方面已经成熟（Grace和Keeley，2006年；Shipley，2016年；Yang等人，2024年），但将其与机器学习结合的努力主要限于顺序或基于特征的集成策略。这些策略通常涉及用SEM潜在变量增强输入（Guo等人，2025年）或通过机器学习将这些潜在变量空间化作为预测因子（Lopatin等人，2019年）。尽管最近的工作尝试将SEM拓扑直接嵌入神经架构中（Wang等人，2023年；Deng等人，2024年），但这样的设计往往忽略了环境数据的内在复杂性，其中SEM虽然捕捉到了主要驱动因素，但可能无法解释所有高维、非线性模式。因此，当SEM指示的知识不完整时，仅依赖SEM结构的模型可能不太可靠。因此，迫切需要一种架构，它在保持从数据中独立学习未建模关系的灵活性的同时，将预测建立在SEM的解释力基础上。

为了解决这一差距，我们开发了一种SEM引导的混合神经网络（SEM-HNN），它通过自适应融合将SEM衍生的知识引导分支与无约束分支相结合，使模型能够捕捉先验的经验关系和复杂的数据驱动模式。这种双分支方法在中国东部农田SOC预测中得到了验证。因此，这项研究为将知识整合到机器学习中以进行空间SOC预测提供了一种新颖的方法，并促进了地球系统研究的更广泛应用。

**2. 材料与方法**
**2.1. 研究区域和数据集**
本研究区域是中国东部的一个典型农业区，包括江苏、浙江和上海（图1）。该地区位于东亚季风区，具有显著的季节性变化、丰富的降水量和长期的集约化农业实践历史。自20世纪80年代以来，中国东部的集约化和高度管理的农业生产在塑造SOC储存及其空间模式方面发挥了重要作用。因此，选定的研究区域代表了区域环境设置和普遍的农业管理方式，适合研究这些因素如何调节SOC动态并改善其空间模式映射。

由于表土层最直接受到农业活动的影响，并含有最高的有机碳含量，本研究主要关注表土有机碳。为了准确估计表土SOC的时空分布特征，收集了1980年代和2010年代的两个时期的数据。1980年代的数据来自中国的第二次全国土壤调查（中国第二次全国土壤调查办公室，1993年）。2010年代的样本数据来自2009-2019年进行的全国土壤系列调查（Huang和Pan，2017年；Ma和Zhang，2017年；Yang，2017年）。最终获得了1980年的128个土壤采样点和2010年的141个采样点。由于不同采样剖面的土壤深度不同，每个采样点的SOC含量和土壤属性根据Pu等人（2024年）描述的方法标准化到0-20厘米的深度。

SOC的时空分布和积累受到气候、土壤和管理因素的共同影响，如补充材料中的表S1所总结的。气候因素，包括年平均降水量（MAP）和年平均地表温度（MGST），是从中国科学院资源与环境科学数据中心（https://www.resdc.cn）获取的，使用采样前的10年平均值。土壤的物理和化学性质，如土壤pH值和粘土含量，是在第二次全国土壤调查和全国土壤系列调查的采样点直接测量的。农业管理因素，包括施肥、机械化水平和作物残渣管理，被纳入考虑，以考虑人为因素对SOC的影响。氮肥使用效率是根据中国的历史氮肥施用数据（1952-2018年；Yu等人，2022年）得出的，而机械化和残渣管理数据则是通过中国社会经济大数据研究平台（https://data.cnki.net/）获取的统计年鉴。每个采样点的管理变量根据地理位置与相应的行政单位相关联，代表1980年代或2010年代的汇总条件。

**2.2. 结构方程建模**
结构方程建模（SEM）被用来量化气候、土壤性质和农业管理对中国东部SOC积累的贡献。具体来说，我们采用了Pu等人（2024年）建立的SEM模型，他们对潜在变量和路径的广泛评估验证了其在该地区的稳健性。他们的分析集中在两个关键时期：1980年和2010年，将环境驱动因素总结为五个潜在变量：气候、土壤、肥料、机械和残渣。每个潜在变量由一组可观测指标表示，这些指标是可测量的、明确的变量（例如，温度、土壤pH值）。例如，气候包括年平均降水量（MAP）和年平均地表温度（MGST），反映了调节碳输入和分解过程的水热条件；土壤包括土壤pH值和粘土含量，代表了控制碳稳定和保留的关键因素。肥料、机械和残渣变量捕捉了影响碳输入和土壤扰动的人为管理实践。

通过估计变量之间的路径系数，SEM量化了每个潜在变量对SOC空间分布的直接（作为路径系数）和间接效应。1980年代和2010年代农田SOC的最佳SEM模型（图2）分别获得了0.44和0.29的R²值。鉴于1980年数据集的更高性能和稳定性，选择了它来评估所提出的SEM-HNN，而基于2010年数据的结果在补充材料中提供以供比较分析。

**2.3. SEM引导的混合神经网络（SEM-HNN）**
SEM引导的混合神经网络（SEM-HNN）被设计为一个双分支架构，将结构化知识与数据驱动的学习相结合。该模型由两个并行流组成：一个知识引导分支，复制SEM衍生的潜在结构；一个无约束分支，捕捉补充的环境模式（图3）。

**2.3.1. SEM引导分支**
知识引导分支将神经网络架构与SEM的测量组件对齐。观测变量[X=x1,x2,…,xp]根据它们在SEM中的相应潜在构造进行分组。每个组[XGi∈X]通过一个独立的非线性测量分支进行处理，以获得结构化的潜在表示：
[Math Processing Error]Zlatenti=fiXGi;θi，
其中[Math Processing Error]fi·表示一个或多个具有激活函数的全连接层的非线性测量分支，[Math Processing Error]θi表示该分支的可训练参数。所有[数学处理错误]k测量分支的输出随后被连接起来，形成结构化的潜在表示：(2)[数学处理错误]Zlatent=Zlatent1,Zlatent2,…,Zlatentk，其中[数学处理错误]Zlatent捕捉了结构关系，并构成了模型的可解释组成部分。[数学处理错误]k表示潜在变量的数量。这一组成部分捕捉了SEM衍生的结构关系，确保模型的内部特征组织与已建立的变量依赖性保持一致。2.3.2. 无约束分支为了扩展表示能力，引入了一个平行的无约束数据驱动分支。该无约束分支将全连接层应用于原始输入特征，以生成灵活的表示：(3)[数学处理错误]Zh=hX;ϕ，其中[数学处理错误]Zh的维度由超参数[数学处理错误]nn_hidden定义，反映了无结构分支捕捉信息的能力。2.3.3. 自适应融合为了实现结构引导和数据驱动表示的自适应集成，引入了一个可学习的缩放因子[数学处理错误]γ，在特征融合之前重新缩放SEM引导分支产生的潜在特征[数学处理错误]Zlatent。(4)[数学处理错误]Zlatent′=Zlatent×γ，然后将重新缩放的SEM表示[数学处理错误]Zlatent′与数据驱动特征[数学处理错误]Zh连接起来，形成融合表示：(5)[数学处理错误]ZFused=ConcatZlatent′,Zh融合特征进一步通过带有ReLU激活函数的全连接层进行投影，以捕捉高阶交互作用：(6)[数学处理错误]ZFusedproj=ReLUFCZFused，并将其输入到预测头中进行目标估计：(7)[数学处理错误]ŷHybrid=fZFusedproj这种自适应融合机制允许SEM-HNN在知识驱动的约束和数据驱动的洞察之间动态平衡，同时保持可解释性，以适应复杂、非线性的环境关系。2.4. SEM-HNN的消融研究为了评估SEM-HNN的有效性，我们实现了两种消融变体，SEM-NN（仅SEM引导分支）和Pure-NN（仅无约束分支），以确定两个分支的贡献。SEM-NN：这种配置移除了无约束分支，仅依赖于SEM对齐的架构来测试纯结构知识的预测能力。Pure-NN（仅无约束分支）：通过禁用SEM引导分支，这种变体代表了一个传统的无约束神经网络，因此纯粹是数据驱动的学习。2.5. 与传统集成策略的比较此外，SEM-HNN还与四种代表性的传统集成策略进行了比较，如特征增强、样本加权、残差回归和软投票集成。这些模型代表了将先验知识与机器学习相结合的流行方法，为评估我们模型的进步提供了稳健的基准。每种方法的具体细节在下面详细说明。特征增强：将SEM衍生的潜在变量（[数学处理错误]L）作为额外预测因子与原始特征（[数学处理错误]X）一起使用。这测试了一种串行耦合方法，其中先验知识作为静态输入。样本加权：这种方法使用SEM预测残差来指导ML训练过程。SEM模型解释不佳的样本通过高斯启发函数被赋予更高的权重，迫使RF关注这些难处理的样本。残差回归：SEM捕捉主要成分，而RF专门用于建模剩余的未解释变异性（[数学处理错误]r=y-ŷSEM）。软投票集成：这种策略使用特征增强来聚合SEM和RF模型的独立预测。使用加权平均机制来优先考虑具有更高验证性能的模型。这些模型的详细描述在补充材料中提供。2.6. 模型配置、评估和敏感性分析2.6.1. 实现细节和超参数所提出的SEM-HNN使用PyTorch实现，其架构参数和训练超参数在表1中总结。为了评估每个组件的贡献，我们将SEM-NN（其中nn_hidden = 0）视为仅依赖于SEM结构的消融变体。对于混合配置（nn_hidden > 0），融合层的维度被动态设置为潜在单元和无约束分支的隐藏单元之和。表1. SEM-HNN框架的超参数配置。参数值/描述潜在单元等于SEM潜在变量的数量（k）隐藏单元（nn_hidden）{0, 8, 16, 32, 64}；控制无约束分支的能力缩放参数（[数学处理错误]γ）可学习参数（初始化为1.0）激活函数ReLU预测头具有16个隐藏神经元和单个线性输出的MLP优化器Adam（学习率 = [数学处理错误]1×10-4，权重衰减 = [数学处理错误]1×10-5）最大迭代次数1500（带提前停止）为了确保公平比较，Pure-NN的深度和隐藏神经元数量与SEM引导分支的累积容量相同。比较模型使用scikit-learn库实现，超参数（例如，树的数量、最大深度）通过网格搜索进行优化。2.6.2. 交叉验证和性能指标所有模型都使用重复的五折交叉验证（[数学处理错误]5×5 CV）方案进行评估。在每个训练折叠中，使用内部验证来优化超参数，以确保完全独立的评估。为了严格避免数据泄露，我们为需要显式潜在值的比较模型实现了一种与折叠无关的SEM估计策略。在每个折叠中，仅使用训练分割重新估计SEM路径系数和因子载荷。然后在完全独立的保留验证集上评估训练模型。模型性能使用决定系数（R2）和均方根误差（RMSE）进行量化。这些指标结合敏感性分析，阐明了结构先验和灵活学习在预测SOC空间分布中的各自作用。2.6.3. SEM-HNN超参数的敏感性分析为了研究SEM衍生知识引导和数据驱动灵活性之间的平衡如何影响性能，我们对两个关键架构参数进行了敏感性分析。分支容量（nn_hidden）：通过将无约束分支的大小从0（纯SEM引导分支）变化到64，我们量化了无约束非线性模式在多大程度上补充了SEM结构。自适应缩放（γ）：我们监控了训练过程中可学习参数γ的轨迹。[数学处理错误]γ的最终收敛值反映了应用于SEM引导分支的门控强度，表征了其特征如何与无约束特征进行调制。2.6.4. SEM结构的敏感性分析为了评估SEM结构的变化如何影响其解释能力和所提出的SEM-HNN的预测性能，我们在不同的SEM配置下进行了结构敏感性分析，数据来自1980年代。本研究考虑了三种SEM结构：完整SEM：包括所有变量和路径的原始结构模型（图2a）。简化SEM1：将氮肥施用和机械化水平合并为一个潜在变量（管理）的简化结构（图4a）。下载：下载高分辨率图像（149KB）下载：下载全尺寸图像图4. SEM结构的敏感性分析。a) 简化SEM1：将氮肥施用和机械化水平合并为一个潜在变量（管理），b) 简化SEM2：移除了这些管理变量。简化SEM2：移除了所有与管理相关的变量的简化结构（图4b）。3. 结果3.1. 与传统集成策略的比较性能SEM-HNN在所有测试模型中实现了最高的预测准确性（R2 = 0.554 ± 0.137，RMSE = 0.289 ± 0.033）（表2）。Friedman检验确认比较方法之间的差异通常是显著的（[数学处理错误]p=8.93×10-6），事后成对比较显示SEM-HNN显著优于Pure-NN（[数学处理错误]p=0.008）和特征增强RF（[数学处理错误]p=0.002）（补充材料中的图S2）。此外，仅包含SEM结构分支的SEM-NN也显示出比Pure-NN统计上显著的改进（p < 0.05）。表2. 不同模型在交叉验证中的R2和RMSE。模型R2（平均值±标准差）RMSE（平均值±标准差）样本加权RF0.497 ± 0.1170.311 ± 0.040特征增强RF0.498 ± 0.1330.309 ± 0.035残差回归RF0.499 ± 0.1650.307 ± 0.043软投票RF0.516 ± 0.1180.304 ± 0.036Pure-NN（nn_hidden = 5）0.427 ± 0.1890.331 ± 0.063SEM-NN0.525 ± 0.1810.297 ± 0.042SEM-HNN（nn_hidden = 21）0.554 ± 0.1370.289 ± 0.033与传统SEM集成策略相比，SEM-HNN在精确度和稳定性方面都表现出优势。传统策略如样本加权（R2 = 0.497）、特征增强（R2 = 0.498）和残差回归（R2 = 0.499）仅获得了边际收益，R2值保持在0.5以下。即使是表现最好的基于RF的基准软投票RF（R2 = 0.516 ± 0.118）也没有达到SEM-HNN的平均性能，这可能是因为后期投票无法捕捉到通过内部架构耦合实现的交互效应。结果还表明，简单的输入级（即样本加权）或输出级组合（即软投票）提供了相对较高的稳定性，如它们的R2标准差较低（SD = 0.117）所示。相比之下，SEM-HNN内的自适应融合机制实现了最高的平均预测准确性，同时表现出相对较小的方差（SD = 0.137）。总体而言，这表明我们的方法在保持适度且可靠的稳定性的同时提高了预测性能，为协调结构化关系与复杂环境数据提供了一个潜在有效的框架。3.2. SEM-HNN架构的消融分析消融验证确认了双分支混合设计的必要性。评估了两种变体：SEM-NN（仅SEM引导分支）和Pure-NN（仅无约束分支），以区分每个组件的贡献。移除SEM引导分支（Pure-NN，R2 = 0.427 ± 0.189）导致性能下降最显著，反映了无约束神经网络在没有结构引导的情况下捕捉目标变量分布的能力有限。移除无约束分支（SEM-NN，R2 = 0.525 ± 0.181）也导致准确性下降和预测不确定性显著增加。这些结果表明，虽然SEM对齐的结构提供了稳健的先验，但平行的无约束分支对于捕捉SEM无法完全解释的残余非线性和高阶交互是必不可少的。3.3. 模型超参数的敏感性分析3.3.1. 无约束分支容量对预测性能的影响对无约束分支中隐藏神经元数量（nn_hidden）的敏感性分析揭示了网络容量和平均预测性能（R2）之间的非线性关系（图5a）。随着nn_hidden从0增长，R2急剧增加，在15到21个神经元之间达到峰值，最大R2约为0.55。这一趋势反映了模型复杂性和预测准确性之间的平衡。超过nn_hidden ≈ 25后，R2值开始下降，表明过度的模型复杂性可能会降低泛化能力。基于此分析，选择了nn_hidden = 21作为最终参数。下载：下载高分辨率图像（67KB）下载：下载全尺寸图像图5. SEM-HNN在交叉验证中的敏感性分析和参数动态。（a）模型性能R2与无约束分支中隐藏神经元数量之间的关系。该曲线说明了网络复杂性和泛化之间的权衡。（b）SEM引导分支的可学习缩放权重（γ）的训练动态随时间的变化。3.3.2. SEM分支缩放因子的影响SEM分支缩放因子（γ）的学习曲线在图5b中展示。初始化为1.0的γ在训练过程中稳步增加，并在大约820个周期后稳定下来，此时触发提前停止。这种模式表明，在优化过程中逐渐调整了应用于SEM引导分支的缩放。最终大于1.0的γ值表明，在收敛时分配给SEM引导分支的缩放幅度更大。3.4. SEM结构对SEM-HNN预测性能的影响我们评估了SEM结构的变化如何影响其解释能力和SEM-HNN的预测性能。如图S3所示，SEM对SOC的解释能力从0.44（完整SEM）下降到0.41（简化SEM1）和0.39（简化SEM2），表明在简化结构下的表示完整性降低。在不同SEM配置下的SEM-HNN中也观察到了类似的趋势，其中平均R2从0.554（完整SEM）下降到0.542（简化SEM1）和0.505（简化SEM2）（表3）。该模型在适度结构修改下表现出相对稳健的性能（即变量合并），但在移除关键管理变量时表现出更明显的退化。这表明SEM-HNN的预测有效性与底层SEM表示的质量正相关。表3. SEM结构对不同模型预测性能的影响。SEM结构模型R2（平均值±标准差）RMSE（平均值±标准差）简化SEM1（Nfer, Mach）→管理样本加权RF0.500 ± 0.1200.310 ± 0.040特征增强RF0.501 ± 0.1260.309 ± 0.034残差回归RF0.508 ± 0.1490.305 ± 0.038软投票RF0.504 ± 0.1180.309 ± 0.037Pure NN0.536 ± 0.1410.296 ± 0.035SEM-NN0.315 ± 0.2240.361 ± 0.064SEM-HNN0.542 ± 0.1460.293 ± 0.036移除Nfer, Mach样本加权RF0.492 ± 0.1320.312 ± 0.041特征增强RF0.473 ± 0.1460.318 ± 0.048残差回归RF0.489 ± 0.1540.311 ± 0.036软投票RF0.497 ± 0.1210.311 ± 0.040Pure NN0.502 ± 0.1580.307 ± 0.041SEM-NN0.392 ± 0.2390.339 ± 0.069SEM-HNN0.505 ± 0.1810.304 ± 0.042注意：SEM-HNN和Pure NN都使用nn_hidden = 16以确保公平比较。这个值是基于网格搜索选择的，因为它在实验中相对稳定且具有代表性。在两种简化SEM设置中，SEM-HNN在R2和RMSE方面始终在所有竞争方法中实现了最高或可比的性能，证明了将SEM衍生的结构先验与数据驱动学习相结合的有效性。4. 讨论4.1. 将SEM衍生知识纳入机器学习进行SOC预测的优势所提出的SEM引导混合神经网络通过具有自适应融合的并行架构，将结构化信息与数据驱动学习相结合。SEM-HNN不是依赖于“黑盒”设计，而是利用SEM拓扑作为结构先验来指导特征学习。通过将特定组观察到的环境变量投影到专门的潜在表示节点（例如SOIL、CLIM和管理），模型强制从环境驱动因素到潜在过程，最终到SOC的结构化流动。这确保了高维输入数据首先在网络内被投影为生态上有意义的表示，然后进行最终预测。与此同时，采用自适应融合的双分支设计允许在训练过程中，SEM引导的分支和不受约束的分支动态地共同发挥作用：前者编码基于理论的关系，后者捕捉残余的非线性模式。这种自适应整合使模型能够平衡领域知识和数据驱动的学习，从而在先验知识不完整的情况下提高预测准确性并增强模型的鲁棒性。结构敏感性分析表明，该模型在中等程度的结构修改（例如变量合并）下仍能保持相对稳定的性能，说明其对SEM拓扑的微小扰动具有较低的敏感性。这一发现得到了2010年数据集的支持——在该数据集中，SEM仅能解释SOC变异性的有限部分（R² = 0.29；表S2），但所提出的模型仍能实现具有竞争力的预测准确性。这些结果表明，该模型并不严格依赖于结构先验的完整性，并且可以通过数据驱动的学习部分补偿不完整或缺失的信息。

此外，结构拓扑的整合有助于提高模型效率。我们的结果显示，SEM-HNN（R² = 0.554）使用更简单和固定的架构（21个隐藏神经元）就能取得良好的性能，而Pure-NN则需要更高的复杂性才能达到类似的准确性，并且对隐藏神经元的数量更为敏感（图S1）。与一些依赖额外模拟或辅助过程的信息驱动或混合方法不同，SEM-HNN在不显著增加模型复杂性的情况下整合了先验知识。这表明，嵌入先验知识有助于减少对过度网络容量的依赖，并在数据有限或噪声较大的情况下降低不确定性。

总体而言，我们的方法可以被视为基于架构的、受土壤科学启发的机器学习中的一个独特实现。与以往关注空间自相关性或垂直土壤剖面模式的方法（Minasny等人，2024年）以及基于过程的方法（Zhang等人，2024年）不同，该模型强调灵活地嵌入结构（基于路径的）知识。重要的是，这一框架不仅限于SEM，还可以扩展到其他结构化的先验（例如贝叶斯模型）。更广泛地说，这些结果指向了一种由土壤-环境关系知识指导的机器学习方法（图6）。通过将整合组织到输入、架构和输出三个层面，研究人员可以模块化地结合不同的策略，如潜在特征增强或软投票，以适应特定的数据条件。这使得在多样化的环境建模任务中整合实证数据和先验环境知识成为一个更加系统和灵活的框架。

下载：下载高分辨率图像（353KB）
下载：下载全尺寸图像

图6. SEM引导的知识驱动机器学习框架示意图。该框架在三个层面促进了知识与数据的协同作用：（1）通过特征增强或样本加权进行输入整合；（2）通过SEM结构化的神经网络进行架构指导；（3）使用残差回归或集成方法进行输出融合。

4.2. 局限性与未来展望

尽管CKGML框架显示出潜力，但本研究也存在一些局限性。SEM定义的潜在路径是结构构造，而不是可测量土壤碳过程的直接表示。未来的研究可以进一步将基于过程的表示与数据驱动的学习相结合，以更好地使学习到的表示与可测量的土壤碳动态相一致，从而提高可解释性。另一个局限性源于模型对SEM结构的依赖。SEM-HNN假设假设的关系能够合理近似潜在的环境驱动因素。然而，当这些先验假设与观察数据不符时（如2010年数据集中SEM引导的分支仅取得了有限的提升（表S2），准确性和可解释性都会受到限制。因此，SEM应被视为一种知识引导的先验，而不是土壤过程的确定性表示。此外，SEM的中等解释能力意味着部分SOC变异性仍然无法解释，这可能在混合架构中融合这些结构输出时引入不确定性。

本研究使用的SEM假设了线性关系。地球系统的特点是高阶相互作用和非线性反馈。因此，线性模型可能无法完全捕捉到潜在的复杂性，从而可能限制模型的最终性能。尽管我们的SEM-HNN中的不受约束分支部分补偿了这些非线性，但知识锚点（SEM分支）可能仍然无法提供复杂过程的完整表示。未来的研究应优先考虑将非线性模型或差分过程模型整合到流程中，以更真实地反映地球表面变量的复杂性。此外，样本量（例如1980年代的128个观测值）对SEM估计和神经网络稳定性仍然是一个限制。虽然SEM-HNN的结构指导减少了了对大型数据集的依赖，但数据可用性的限制仍可能影响结果的泛化能力。尽管如此，在这些数据稀疏条件下成功实施该模型突显了其在数字土壤制图中的价值。未来使用更大、更多样化数据集的研究对于进一步验证该框架在不同规模和环境条件下的鲁棒性至关重要。

尽管存在这些限制，SEM引导的混合神经网络的概念核心——将定性结构转化为定量机器学习架构——为将先验知识整合到数据驱动模型中提供了一种新颖的方法。除了土壤有机碳的情况外，该框架还可以扩展到对多种地球表面变量的空间推断，例如预测土壤水分动态、绘制森林生物量或估算空气污染物浓度。在难以建立明确物理方程但存在部分关系理解的系统中，知识引导的混合模型提供了一种潜在的方法来桥接实证数据和基于过程的推理。通过将模型结构与现有科学知识对齐，这种方法为提高环境应用中空间预测模型的可靠性提供了有前景的工具。

5. 结论

本研究开发了一种SEM引导的混合神经网络（SEM-HNN），它通过具有自适应融合的并行架构将结构信息与数据驱动的学习相结合。在中国东部数据集对农田SOC的验证表明，我们的SEM-HNN模型始终优于其他竞争模型。具体来说，SEM-HNN实现了最高的平均R²值和更低的预测不确定性（R² = 0.554 ± 0.137），相比之下，纯神经网络和其他基于RF的方法表现较差。值得注意的是，SEM-HNN使用SEM结构化的分支结合相对简单的不受约束的神经网络架构就实现了这一性能，而Pure-NN则需要更复杂的架构，并且对网络配置更为敏感才能达到类似的准确性。这突显了通过整合基于SEM的结构信息所实现的模型效率和预测准确性的提升。此外，对SEM结构的敏感性分析表明，在SEM拓扑变化的情况下，所提出的双分支方法比其他SEM集成方法获得了更高的R²值。即使SEM的解释能力有限（R² = 0.29），SEM-HNN仍然实现了最高的R²值和最低的标准差。总体而言，将结构先验信息与数据驱动组件相结合有助于在先验知识不完整的情况下稳定学习过程。所提出的模型为将先验知识整合到数据驱动模型中提供了一种结构化的方法，并且可以扩展到其他具有复杂相互作用和有限机制表示的环境变量。

作者贡献声明：
郭茂：撰写——审阅与编辑、撰写——初稿、可视化、验证、监督、方法论、调查、形式分析、概念化。
杨林：撰写——审阅与编辑、撰写——初稿、调查、形式分析、概念化。
蒲月：撰写——审阅与编辑、撰写——初稿、方法论、形式分析。
白燕：撰写——审阅与编辑、撰写——初稿、形式分析、概念化。
刘家航：撰写——审阅与编辑、撰写——初稿、调查、形式分析。
沈飞雪：撰写——审阅与编辑、撰写——初稿、可视化、方法论。
周成虎：撰写——审阅与编辑、撰写——初稿、监督、资源。
潘德卢：撰写——审阅与编辑、撰写——初稿、监督、资源。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部