综合隐性知识与人工智能的亚马逊东部数字土壤制图：集成学习、模型性能与不确定性整合

时间：2026年3月18日

来源：Soil Systems

编辑推荐：

本研究为应对亚马逊东部地区复杂环境和数据稀缺对土壤测绘的挑战，提出了一种集成历史土壤图隐性知识（Tacit Knowledge）与机器学习（ML）的框架。研究通过集合学习（Ensemble Learning）更新了1:100,000的土壤图，并利用熵（Entropy）和混淆指数（Confusion Index）量化空间不确定性。结果表明，集合模型提升了预测稳定性，特别是在水文环境复杂地区，为热带数据稀缺区域的土壤信息更新提供了一个兼顾预测性能、空间一致性和不确定性解释的稳健方法。

在全球气候变化与人类活动双重压力下，准确掌握土壤的空间分布是实现可持续土地管理和资源保护的关键。然而，在巴西的亚马逊生物群落，情况尤其严峻。这片覆盖约500万平方公里的广袤区域，其高环境复杂性、难以进入的地理条件以及历史调查数据的极度稀缺，使得获取详尽的土壤信息困难重重。据巴西国家土壤计划（Pronasolos）数据，全国尺度大于1:10万的详细土壤调查覆盖范围不足6%，而在亚马逊地区，大多数可用图件比例尺更小（1:1,000,000 至 1:250,000），远不能满足精细化农业规划与环境保护政策制定的需求。因此，如何高效、经济地更新这些陈旧的“遗产图”（Legacy Soil Maps），并量化其固有的空间不确定性，成为了一个亟待解决的科学与技术难题。

发表于《Soil Systems》期刊上的这项研究，为这一问题提供了一个颇具前景的解决方案。该研究旨在通过整合机器学习与遗产土壤图中的“隐性知识”（即制图专家的经验与土壤-景观关系模型），开发一个可推广的框架，用于在数据稀缺的热带地区更新土壤地图，并特别关注预测稳定性和不确定性的空间显化。

为达成研究目标，研究者们以巴西帕拉州（Pará）的Tracuateua市（面积828.025 km²）为研究区。该区域地形多样，包含由巴雷拉斯组（Barreiras Formation）沉积物形成的高风化高原（以LATOSSOLOS和ARGISSOLOS为主）以及第四纪冲积平原等水文环境（Hydromorphic environments）。研究采用了基于SCORPAN（土壤（S）、气候（C）、生物（O）、地形（R）、母质（P）、年代（A）和空间位置（N））框架的环境协变量。在方法层面，该研究整合了270个30米×30米的采样点数据（覆盖整个研究区）、基于SCORPAN框架的15个环境协变量（例如：年均降水量AAP、古气候变量PR_22K与Tmean_22K、土壤调整植被指数SAVI、地表温度LST、地形因子如CNBL和海拔等），以及一份1998年发布的1:10万尺度遗产土壤图。通过递归特征消除（RFE）筛选最优预测因子子集后，研究人员使用了四种基于决策树的机器学习算法——随机森林（Random Forest, RF）、Ranger、XGBoost (Xgb) 和 C5.0 (C5)——以及一个由这些算法组成的集成学习（Ensemble Learning, EL）模型。他们将原始制图单元（MUs）重组为两个分类层级（LD1：土纲级；LD2：土类级）进行预测。模型性能通过Kappa指数和总体精度评估，并利用熵和混淆指数来空间化地表达分类不确定性。

结果部分主要包括以下几个方面：

1.
集成学习提升了预测性能与稳定性： 研究结果显示，相较于单一模型（如RF、Ranger、XGBoost和C5.0），集成学习模型在LD1和LD2两个细节层级上均展现出更稳定的Kappa值分布和更低的分类不确定性。这表明集成方法通过组合多个模型的优势，在预测土壤制图单元时具有更强的鲁棒性。同时，气候（特别是2.2万年前的年平均温度Tmean_22k）、地形（河道基准面CNBL和海拔）以及生物（地表温度LST）变量被识别为预测土壤空间分布的关键环境因子。
2.
算法性能比较与不确定性量化： 不同算法的比较分析表明，随机森林（RF）和Ranger模型在本次研究中表现最佳。更重要的是，研究不仅生成了最终的土壤分类图，还输出了相应的熵图和混淆指数图。这些空间化的不确定性估计，为实地调查提供了明确的决策支持，能够指导野外人员优先前往预测可靠性较低（即高不确定性）的区域进行验证采样，从而优化调查资源分配。
3.
在复杂水文环境中验证了框架的有效性： 研究特别关注了水文环境，该环境由于难以进入且成土过程复杂，是传统土壤调查的难点。集成模型在这些区域成功降低了预测不确定性，证明该方法能够有效应对高异质性和高复杂度的土壤环境挑战。
4.
方法论的流程化验证： 研究构建了一套从数据处理（包括地形因子提取、历史图件整理）、模型训练与优化（使用caret包进行超参数调优和特征选择）、到结果评估（性能统计与空间不确定性计算）的完整工作流程。

结论与讨论： 本研究证实了将遗产土壤图中的隐性知识（Pedologist’s Mental Model）通过集成学习框架进行形式化转换的可行性。通过结合机器学习、环境协变量和历史数据，该研究不仅成功更新了亚马逊地区Tracuateua市的土壤图，更重要的是，它提供了一个可迁移的、不确定性感知的预测性数字土壤制图（PDSM）框架。该框架的重要意义在于：（1）提升了数据稀缺地区土壤信息更新的效率和成本效益，为类似热带区域提供了可行的技术路径。（2）通过空间化不确定性估计增强了成果的透明度和实用性，使决策者能够直观识别地图的可靠区域与高风险区域，从而制定更具针对性的野外调查和土地管理策略。（3）证明了集成学习方法在处理复杂环境（尤其是水文环境）土壤预测问题上的优越性，为未来研究指明了方向。这项工作平衡了预测精度、空间一致性与不确定性解释，为在亚马逊及其他数据有限地区开展可持续土地资源管理奠定了坚实的科学基础。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部