通过机器学习提升精准保护水平,实现农业最佳管理实践的田间优先级排序

时间:2026年5月18日
来源:International Soil and Water Conservation Research

编辑推荐:

Md. Bodrud-Doza|Wanhong Yang|Yongbo Liu|Ram Yerubandi|Mckenna Thompson|Kevin McKague|Dave James|Ben DeVries|Evan D.G. Fraser 圭尔夫大学地理环境与地理信

广告
   X   

Md. Bodrud-Doza|Wanhong Yang|Yongbo Liu|Ram Yerubandi|Mckenna Thompson|Kevin McKague|Dave James|Ben DeVries|Evan D.G. Fraser
圭尔夫大学地理环境与地理信息学系,加拿大安大略省圭尔夫市,N1G 2W1

**摘要**
有效识别农业最佳管理实践(BMPs)的机会对于减少全球集约化管理农业流域的非点源污染至关重要。在五大湖流域,由于广泛采用瓦片排水系统,这一任务变得更加复杂。现有的决策支持工具通常会生成大量潜在的干预地点,但没有明确的优先级排序,这限制了实际的实施。农业保护规划框架(ACPF)系统地绘制了潜在BMP的位置,但在优先排序方面提供的指导有限。为了解决这一限制,本研究开发并应用了一个框架,将ACPF与机器学习和明确的不确定性映射相结合,以预测连续的、田间级别的保护需求。在安大略省南部一个205平方公里的瓦片排水流域内,对138个农田进行了调查,以得出综合BMP需求得分(CBNS),该得分整合了田间观察到的BMP需求证据、地点严重程度和土地管理指标。随机森林(RF)和极端梯度提升(XGBoost)模型被训练用来使用地理空间预测因子来预测CBNS。两种模型的表现相当,独立测试集(n = 35)和100次重复的训练-测试分割中的预测结果稳定且一致(RMSE = 1.32 ± 0.12 CBNS单位,范围为0.5–6.5)。学习曲线表明,性能主要受样本大小限制,而非模型能力。由于XGBoost在区分不同田地方面的灵活性更强,因此被选用于空间预测,并用于估算该流域内所有627个农田的CBNS。模型分析确定,水文连通性和侵蚀力是保护需求的最强驱动因素。该框架识别出需要最多干预措施的20%的农田。通过将机器学习与ACPF结合并纳入不确定性层面,本研究将精确保护从概念理解提升到了优先级指导,提供了一个透明且可转移的框架,适用于全球的农业流域,特别是在瓦片排水系统中。

**1. 引言**
精确保护是减轻全球农业景观中非点源污染的关键策略,因为营养物质和沉积物的流失会损害水质、生态系统健康和食物系统的可持续性(Swinton, 2022)。这种方法利用空间明确的数据、技术和程序来识别机会并实施保护措施,以保护水质、减少营养物质和沉积物的流失,并维持土壤和生态系统功能(Delgado et al., 2011)。通过考虑农业和自然系统中的空间和时间变异性,精确保护确保在最佳位置、规模和时间实施适当的措施,以最大化环境效益,同时保持农业生产力(Berry et al., 2003)。这一策略在五大湖流域的瓦片排水农业生态系统中尤为重要,因为非点源营养物质(尤其是溶解磷和氮)的流失会降低下游水质(Bodrud-Doza et al., 2025)。瓦片排水农业景观广泛分布于北美洲和欧洲的温带地区,被认为是非点源营养物质污染的主要来源(例如美国中西部和北欧)(King et al., 2015; Carstensen et al., 2020)。安大略省西南部是这类系统的典型代表,那里排水不良的土壤、广泛的地下排水基础设施以及密集的行作物生产(玉米-大豆-小麦轮作)造成了田地与接收水体之间的强烈水文连通性(Esbroeck et al., 2017)。在该地区,来自瓦片排水田地的营养物质径流是五大湖下游持续富营养化的主因(Basu et al., 2023)。全球其他瓦片排水农业地区也报告了类似的挑战,使用传统保护方法难以拦截溶解氮和磷的流失(Zhou & Margenot, 2025; Christianson & Harmel, 2015)。春季溶解营养物质的排放加剧了有害藻类的繁殖和缺氧现象,威胁饮用水、生态系统健康和区域经济(Fraker et al., 2023; Jarvie et al., 2017; Watson et al., 2016)。为了解决这个问题,加拿大和美国在《五大湖水质协议》(GLWQA)下承诺,到2016年将年总磷和春季可溶性活性磷负荷减少40%(Dagnew et al., 2019)。然而,近十年后,实现这一目标的进展仍然有限。最近的评估表明,五大湖关键支流(特别是伊利湖)的磷负荷减少情况不稳定,年际变化受水文条件影响,春季磷负荷没有持续下降的趋势(Government of Ontario, 2024; Kincaid et al., 2025)。其中一个原因是,传统的最佳管理实践(BMPs)识别方法往往缺乏解决田间级别保护需求和有效优先排序实施地点所需的空间精度(Zimmerman et al., 2019; Yang et al., 2025)。此外,田间和田边BMPs的有效性高度可变且依赖于具体情境,受特定地点的水文、土壤类型、土地利用和气候的影响(King et al., 2015; Macrae et al., 2021)。在某些情况下,BMPs甚至可能产生意外后果,例如免耕瓦片排水田地中溶解磷(P)的流失增加(Bodrud-Doza et al., 2025)。这些挑战突显了需要制定策略来识别和优先考虑干预措施,以考虑景观的异质性(Zimmerman et al., 2019)。

农业保护规划框架(ACPF)是由美国农业部农业研究服务局(ARS)开发的地理空间工具箱,用于实施Tomer等人(2013)描述的保护金字塔,范围从土壤管理到田边处理和河岸恢复。该框架为各种BMPs生成了田间和流域级别的机会,包括草地水道、水和沉积物控制盆地(WASCoBs)、人工湿地、控制排水、地表和地下水处理过滤器、河岸缓冲带以及饱和缓冲带(Porter et al., 2025; Ranjan et al., 2019; Tomer et al., 2015)。ACPF整合了标准化数据集,如高分辨率LiDAR衍生的高程模型、土壤调查和土地利用数据,以及基于景观功能的规则,以识别特定地点的BMP机会,从而支持亚流域级别的流域规划(通常为40至200平方公里单位)(Tomer & Nelson, 2020)。尽管ACPF具有优势,但其应用主要集中在美国中西部和其他农业地区(Lewandowski et al., 2020)。ACPF为BMP机会的选址提供了建议,但没有提供定量框架来评估保护需求或在不确定性下优先排序实施。因此,保护规划往往隐含地优先考虑脆弱性,可能导致有限资源的低效分配。这一限制反映了精确保护中的一个关键缺口,特别是在瓦片排水农业系统中,复杂的水文和生物地球化学过程影响营养物质传输(Macrae et al., 2023)。

最近的研究表明,集成机器学习(ML)模型可以在区域尺度上预测营养物质浓度和流域健康指标(Basu et al., 2023; Bhattarai et al., 2021; Shim & Choi, 2024)。然而,它们与用于田间级别BMP优先排序的操作性选址框架的整合仍然有限。特别是,之前没有研究将ACPF输出、田间观察和机器学习结合起来,生成明确考虑不确定性的决策支持优先级。本研究解决了如何量化空间明确的保护需求并将其转化为在不确定性下的可操作、田间级别优先级的问题。为此,我们通过整合基于观察的综合BMP需求得分(CBNS)、基于机器学习的空间预测和不确定性量化来扩展ACPF。本研究在安大略省南部的一个代表性瓦片排水流域进行,将离散的BMP选址输出转化为概率优先级方法,将精确保护从地点识别提升到操作决策支持。本研究的目标是:(1)评估基于田间的综合BMP需求得分;(2)评估机器学习模型和地理空间预测因子捕捉保护需求空间变异的能力;(3)研究预测不确定性在支持可靠和特定地点的保护优先级中的作用。

尽管该框架是在安大略省南部的瓦片排水流域开发和应用的,但它旨在可转移到其他面临类似营养传输过程和空间异质性挑战的农业地区。本研究为提高保护规划的有效性和效率提供了数据驱动的基础。

**2. 材料与方法**
**2.1. 研究区域**
本研究在加拿大安大略省西南部上泰晤士河流域的Medway Creek流域进行,该流域面积为205平方公里(图1)。该流域具有典型的冰川冰碛系统地貌,海拔范围约为231至335米,平均坡度约为2°。北部源头地区地势更陡峭,溪流网络在冰碛之间切割(Hanke et al., 2024)。该流域代表了五大湖流域广泛分布的瓦片排水农业景观,其中集约化的经济作物生产(玉米、大豆和小麦)占面积的约80%(图SF1)。

该地区由细粒度的冰川粘壤土和粉壤土构成,排水不良,适合采用瓦片排水系统(图SF2)(Bodrud-Doza et al., 2025; King et al., 2015)。该地区属于湿润大陆性气候,30年(1991–2020年)平均年降水量为962毫米,其中约19%以雪的形式降落。该流域表现出明显的季节性水文气候变化。晚冬和早春的高降水量和融雪与土壤饱和条件相吻合,而夏季则表现为较高的蒸发蒸腾和减少的径流。结合广泛的瓦片排水系统,这些条件影响了流域内的地表径流和地下流动,从而调节了营养物质传输(Hanke et al., 2024)。气候变化预测表明,到21世纪末,硝酸盐的年流量加权浓度可能增加56–89%,总磷增加25–47%(Hanke et al., 2024)。这些预测变化预计将增加营养物质向下游系统(包括圣克莱尔湖和伊利湖)的输出风险,那里的富营养化和有害藻类繁殖仍然是一个持续的问题(Basu et al., 2023)。

**2.2. 数据准备和基于ACPF的空间分析**
将农业保护规划框架(ACPF)与机器学习相结合需要协调多个特定于安大略省水文地质和农业条件的地理空间数据集(图2)。核心数据集包括1米分辨率的LiDAR衍生的数字高程模型(DEM)、安大略省土壤调查数据、加拿大农业和农业食品部的六年(2018–2023年)作物清单以及安大略省GeoHub的省级瓦片排水清单。使用Python自动化在ArcGIS Pro 3.0中实施了系统的预处理工作流程,以确保这些加拿大数据源与ACPF要求兼容(Porter et al., 2025)。预处理步骤包括将土壤多边形栅格化、重新分类土地利用和土壤属性以符合ACPF规范,并构建适合ACPF工具箱的全面地理数据库(Porter et al., 2025; Tomer et al., 2015)。

使用ACPF ArcGIS Pro工具箱(版本7.0)提取了田间级别的水文和景观属性,并识别了保护措施的机会。工作流程遵循ACPF的地形分析、景观特征和措施选址模块顺序。LiDAR衍生的DEM经过水文条件处理,以提供瓦片排水农业景观内流动路径的真实表示(Srinivas et al., 2020)。初步分析发现了与道路交叉口和涵洞相关的流动路径中断,这些在裸土DEM中未得到体现(图SF3)。通过使用手动定义的切割线(代表涵洞和地表排水路径)来强制调整排水连通性,解决了这些问题。总共在流域内应用了420条切割线(图SF4)。在32个地点进行了现场评估(图SF5),其中26个地点(81%)的切割线与观察特征一致,6个地点(19%)需要调整。差异主要与小型或隐蔽的涵洞和局部地形异常有关。现场观察结果指导了切割线放置规则的改进,并使用卫星影像底图在未采样区域进行了校正,特别是在道路交叉口和已知排水路径沿线。这个迭代过程确保了经过水文条件处理的数字地形模型(DEM)能够生成一个连续且水文上一致的流动网络,真实反映实际的排水状况。通过设定20公顷的流量累积阈值,从水文条件处理的DEM中划分出河流网络及其集水区,该阈值旨在同时涵盖季节性河流和常年性河流(见图SF6)。为了便于进行空间定位分析,流域被进一步划分为水文上一致的子集水区。河流段还被进一步分类,例如区分常年性河流和间歇性河流,以便利用航空影像和实地观察数据进行特定河岸区域的评估(见图SF7)。地表径流风险通过ACPF径流风险评估工具进行估算,该工具结合了坡度和到河流的距离指标,将田地划分为不同的风险等级。地下脆弱性则通过瓦片排水分类和基于土壤特性、地形特征及排水特点得出的土壤脆弱性指数(SVI)来表征。

基于这些空间信息,应用ACPF模块来确定适合实施各种保护措施的位置,包括田地内的措施(如草皮水道和等高缓冲带)、田地边缘的措施(如排水水管理和反硝化生物反应器),以及河岸措施(如植被缓冲带、饱和缓冲带和两级排水沟)。这些结果代表了具体的保护机会,并作为后续基于机器学习的优先级排序的输入数据。更多细节和数据处理步骤见补充文件(S1:方法论补充,第SM1和SM2节)。

2.3. 野外数据收集
为了进行预测模型训练和评估,2025年7月在流域内总共627块农田中的138块农田进行了实地调查。潜在的调查地点是根据Cochran(1977)的公式确定的最佳样本量,并结合了初步ACPF分析中识别出的保护措施的空间分布来选择的。整个野外调查设计和数据收集方法详见补充文件(S1:方法论补充,第SM3节)。在调查过程中,记录了现有最佳管理实践(BMPs)的存在与否,收集了保护需求(如侵蚀和积水)的视觉证据,评估了场地状况的严重程度,并记录了土地管理措施。使用ArcGIS Online Story Map整合了调查地点的空间分布、实地发现、照片以及地理空间变量的统计摘要(Thompson等人,2025年)。该Story Map与相关利益相关者共享,以评估实地调查结果。此外还结合了Google Earth的遥感影像,为每块调查田地提供了详细的概况。这138块田地的概况及相关数据集,连同遥感影像和ACPF地理空间分析结果,被格式化以用于统计分析。初始数据集包含了138个田地级别的观测数据,记录了景观特征和BMPs的存在情况。定性笔记和直接观察结果被转化为结构化的定量变量。每个调查田地都被分配了一个唯一的田地ID,与相应的地理空间数据关联起来。地理空间变量是使用ArcGIS Pro工具生成的,包括空间连接、分区统计、叠加分析和田地计算等操作。这一过程通过将每个观测点置于更广泛的景观背景中来丰富数据集。所有变量及其定义见补充文件中的表ST1。

该数据集是模型训练和验证的基础。还准备了一个更全面的数据集,包含了Medway Creek流域内所有627块农田的ACPF建议的最佳管理实践和地理空间变量,为整个流域的模型应用提供了基础。

2.4. 基线评估
为了建立性能基准,将ACPF的输出结果与实地观察结果进行了对比。每个田地的ACPF建议与实地调查中记录的BMPs存在情况进行了比较。性能评估使用了基于混淆矩阵的标准分类指标。观察到的阳性率和ACPF建议的阳性率分别代表了记录到或预测到BMPs的农田比例。准确性反映了正确分类的农田总体比例,而敏感性(召回率)和特异性则量化了真正例和假正例的比例。Cohen’s Kappa系数(κ)用于评估观察结果和ACPF建议的BMP位置之间超出偶然性的吻合程度,遵循标准的分类评估程序(Rainio等人,2024年)。

2.5. 机器学习框架
2.5.1. 目标变量:综合BMP需求得分(CBNS)
为了将多方面的实地观察结果转化为预测建模的连续目标,我们开发了综合BMP需求得分(CBNS),这是一个量化田地级别保护需求的综合指数。CBNS通过整合观察到的退化指标与缓解管理措施的存在与否来量化保护需求。CBNS遵循Becker等人(2017年)描述的综合指标开发的一般方法论原则,将多个指标合并为一个单一得分,以反映复杂的环境状况。CBNS整合了两种类型的指标:一种是反映观察到的环境退化及其干预紧迫性的需求指标;另一种是考虑了现有BMPs以平衡需求的管理指标。得分计算公式如下:
其中:
- “Evident_BMP_Need”是一个二进制指标(0/1),表示可见的田地级别退化(例如侵蚀、排水不良或河岸不稳定),表明迫切需要BMP干预。这一组成部分被赋予了较高的权重(w1 = 2.0),以强调专家观察到的紧迫性。
- “Site_severity”是一个有序变量(1 = 低,2 = 中等,3 = 高),表示总体退化严重程度。其权重为w2 = 1.5,以在退化更严重的地点适当增加保护需求。
- “BMP_Present”是一个二进制标志(0/1),表示是否在场地中存在17种观察到的BMP类型(例如湿地、WASCoBs、河岸缓冲带、控制排水等)。其权重为w3 = 0.5,表明现有干预措施部分满足了保护需求。
- “Conservation_Land_Management”是一个二进制标志(0/1),记录了是否采用了土地管理BMPs,如覆盖作物、减少耕作或免耕。其权重也为w4 = 0.5,以在存在这些措施的情况下缓和需求得分。

权重的分配基于专家咨询和经验推理,以反映退化和管理因素的相对影响。较大的权重被分配给退化指标(w1, w2),以强调明显的保护需求;较小的权重被分配给缓解指标(w3, w4),以适度抵消需求,同时不过分考虑部分管理覆盖的情况。对每个调查地点计算CBNS,将多个基于观测的信号整合为一个综合的保护需求指数。CBNS的范围由输入变量的最小(0.5)和最大(6.5)组合决定。最低得分出现在满足最小BMP需求、场地严重程度低且同时存在结构和管理措施的情况下。最高得分(6.5)反映了最大的观察到的退化程度和缺乏缓解措施的情况。连续的CBNS尺度允许在广泛的田地条件下进行区分,避免了上下限的限制,并支持捕捉超出二元分类的保护需求变化的回归分析。较高的CBNS值表明田地具有显著的保护需求、较高的退化严重程度和有限的现有干预措施证据。相反,较低的CBNS值表示已经实施了BMPs或保护措施,或者可观察到的退化程度很小。为了评估CBNS公式的稳定性,通过将每个权重调整25%,重新计算CBNS,并使用Spearman相关性评估修改后得分与原始得分之间的对应关系,从而验证了CBNS作为一个透明、可解释且连续的基于田地的保护需求指数,适用于带有地理空间预测因子的监督回归建模。

2.5.2. 预测变量
共从ACPF输出和支持数据集(例如LiDAR DEM和土壤调查)中提取了19个地理空间预测变量,并在田地级别进行了汇总。这些变量被分为三个主题类别:(i)地形和水文,(ii)土壤特性和脆弱性,以及(iii)土地管理和水文连通性。如Porter等人(2025年)所述,所有预测变量的详细定义见表1。

表1. 机器学习方法中使用的地理空间预测变量定义
| 主题类别 | 预测变量 | 定义 |
| --- | --- | --- |
| 地形和水文 | MeanSlope(地块平均坡度) | 表示田地的平均地形坡度,影响流量累积、侵蚀敏感性和地表径流动态。 |
| Slope75Pct(第75百分位坡度) | 表示每个田地中最陡的部分,捕捉局部地形变化,导致集中流量和侵蚀力。 |
| SlopeRank(坡度陡峭程度排名) | 一种分类坡度值的指标,用于将田地分为低、中或高侵蚀风险等级。 |
| RunoffRisk(田地级别径流风险) | 一个综合指标,结合坡度陡峭程度和河流接近程度,评估径流直接到达水道的可能性。 |
| SPI(河流能量指数) | 表示地表流量的侵蚀能量。 |
| TWI(地形湿度指数) | 土壤湿度和潜在饱和度的空间变异性。 |
| RelativeElev(相对海拔) | 描述土地相对于最近河流的垂直位置,影响排水方向、洪泛区相互作用和径流路径。 |
| HAC(高于河流的高度) | 识别沿流动路径的河流上方相对海拔。 |

| 土壤特性和脆弱性 | SoilDrainage(土壤排水等级) | 描述土壤自然传输和保持水分的能力。 |
| SoilHydroGrp(土壤水文组) | 根据渗透率和饱和条件下的径流潜力对土壤进行分类:A(高渗透率,低径流),B(中等渗透率),C(低渗透率),D(非常低渗透率,高径流)。 |
| SDRRank(沉积物输送比率排名) | 表达从高地到河流通道的沉积物输送效率,结合了坡度、到河流的距离和景观连通性。 |
| SVI_Slrank(地表土壤流失脆弱性排名) | 描述土壤对地表侵蚀过程(如片状或沟蚀)的敏感性。 |
| SVI_SSLrank(地下土壤流失脆弱性排名) | 表示在瓦片排水条件下通过地下流动路径输送养分或沉积物的潜力。 |

| 土地管理和水文连通性 | CCCount(连续玉米种植强度) | 表示多年连续种植玉米的强度,反映作物轮作多样性的减少。 |
| TileDrained(瓦片排水存在) | 一个二进制标志,表示是否存在地下排水设施。 |
| DrainageIndex(土壤排水潜力指数) | 基于坡度和土壤属性推导出的人工排水安装潜力。 |
| P_TrapIndex(地下磷捕获适宜性指数) | 田地实施地下磷捕获措施的适宜性。 |
| StreamType(附近河流) | 识别最近河流的水文性质(常年性、间歇性或季节性)。 |
| Dist_Stream(到河流的距离) | 通过表示田地到最近河流通道的水平流动路径距离来衡量水文连通性。 |

2.5.3. 机器学习流程
使用scikit-learn Python包实现了一个统一且可复制的预处理工作流程,以准备模型训练和交叉验证的数据(Pedregosa等人,2011年)。如表1所示,19个地理空间预测变量被分类为数值型(例如MeanSlope、TWI、Dist_Stream)或分类型(例如SlopeRank、RunoffRisk、SoilHydroGrp)。分类变量使用与ACPF和土壤分类方案一致的预定义类别标识符进行编码,以确保可解释性和模型兼容性。对于总共627块农田,使用空间最近邻方法填补了少量缺失的分类条目,从具有相似地貌和土地利用条件的最近农田中分配值。这种基于空间的插补方法保留了局部景观模式,并最小化了随机替换带来的偏差。数值特征使用z-score标准化(Hasan等人,2021年)进行标准化,以便在回归建模前对变量尺度进行对齐。整个预处理过程在机器学习流程中执行,以确保可重复性并防止模型训练和验证期间的数据泄露。

2.5.4. 预测建模
采用监督机器学习方法来预测CBNS。首先进行了探索性数据分析,使用Spearman等级相关矩阵(Ali等人,2023年)检查预测变量分布和变量间的相关性。选择了两种基于树的集成模型(Random Forest(RF)(Breiman,2001)和XGBoost(Xu & Liang,2021),因为它们能够捕捉复杂的非线性关系。观测数据集(n = 138)被随机划分为训练集(75%)和测试集(25%),使用固定的随机种子以确保可重复性(Alam等人,2025年;Xu等人,2024年)。由于我们的目标变量(CBNS)是连续的,因此使用随机划分以确保两个子集的CBNS均值和方差相似。RF和XGBoost算法都被训练用于回归任务,以预测连续的CBNS。模型超参数使用RandomizedSearchCV策略和重复K-Fold交叉验证方案(5折,3次重复)进行优化,以生成稳健的性能估计(Ali等人,2023年;Raiaan等人,2024年)。回归模型针对均方根误差(RMSE)进行了优化(Alam等人,2025年;Wen和Li,2023年;Xu等人,2024年)。模型性能在独立的保留测试集上进行了评估,该测试集包含了来自138个田块的25%的观测数据,使用了标准的回归指标,如决定系数(R2)、均方根误差(RMSE)和平均绝对误差(MAE)(Alam等人,2025年;Bhattarai等人,2021年;Xu和Liang,2021年)。训练集和测试集的分离使得模型泛化能力的评估无偏。为了进一步检验模型在数据有限情况下的鲁棒性,采用了重复随机子采样验证方法进行了稳定性分析。优化后的模型在100个独立的随机训练-测试分割中进行了评估,其中75%的数据用于训练,25%的数据用于测试。对于每个分割,计算了R2、RMSE和MAE,并总结了这些指标的分布,以量化模型的变异性和泛化稳定性。通过学习曲线分析来诊断模型的偏差-方差特性,并评估样本大小对预测性能的影响。使用k折交叉验证方法(Mengistu等人,2025年)在逐渐增大的训练数据子集上测量了训练误差和验证误差。这种方法明确了模型性能是受到数据可用性的限制还是模型复杂性的限制(Cao等人,2025年)。模型可解释性通过SHapley加性解释(SHAP)来处理,该方法可以量化每个预测因子对模型输出的影响大小和方向(Alam等人,2025年;Mardian等人,2023年)。SHAP值通过展示单个特征如何贡献于特定预测,从而提高了模型的透明度,减轻了通常与机器学习模型相关的“黑箱”问题(Xu等人,2024年)。最终模型选择不是基于单一的性能指标,而是基于多个标准的组合,包括在保留测试集上的预测准确性、在重复训练-测试分割中的稳定性、区分保护需求的能力(预测范围)、学习曲线行为以及模型可解释性。这种多标准方法确保所选模型既具有鲁棒性,又适用于数据有限环境下的决策支持应用(Cao等人,2025年)。使用200次重采样的自助集成方法量化了所选模型对CBNS的预测不确定性(Hirsch等人,2015年;Xu和Liang,2021年)。该方法产生了每个田块的预测分布,包括平均值、标准差和95%预测区间。这些输出对于向利益相关者传达预测的可靠性和支持更好的决策制定至关重要。

2.5.5. 田块优先级排序
表现最佳的回归模型被应用于流域内的所有627个农业田块,生成了一个空间明确的CBNS预测地图,作为田块优先级排序的基础。为了将这些连续预测转化为可操作的决策支持,根据分位数阈值将田块分为高、中和低保护需求三类。这些类别代表了目标保护规划中常用的生物物理优先级带(Evenson等人,2021年;Porter等人,2025年;Zimmerman等人,2019年)。CBNS值大于或等于第80百分位的田块被归类为高优先级,介于第50和第80百分位之间的田块被归类为中等优先级,低于第50百分位的田块被归类为低优先级。这种相对分类确保了在不同预测范围内的优先级一致性,并便于跨空间单元进行比较。为了进一步支持在不确定性下的决策制定,使用自助集成方法量化了预测不确定性,生成了每个田块的预测变异性和置信区间估计。总体而言,该框架提供了田块级别的CBNS预测、不确定性估计和基于SHAP的特征重要性,为优先考虑保护干预措施提供了综合且透明的基础。

3. 结果
3.1. 基于ACPF的保护机会空间定位
基于ACPF的空间分析揭示了流域内水文连通性、径流潜力和保护机会的强烈空间异质性。所得到的水文信息有助于识别关键源区(CSAs),并为在田块和次流域尺度上定位保护干预措施提供了统一的基础。本节展示了田块内、田块边缘和河岸管理干预措施的保护机会主题地图。

3.1.1. 流域特征和地表径流风险评估
该流域的特点是坡度较为平缓(0.5–5%),这是典型的瓦片排水农业景观特征,而较陡的坡度集中在溪谷和流域边界。田块级别的坡度分析显示,西南部河岸走廊和东部边界沿线有较高坡度的农业田块聚集(图SF8),表明这些区域的地表径流生成和侵蚀潜力较大。当与溪流网络的接近程度结合时,这些地形特征与较高的地表径流风险密切相关。被分类为“非常高”和“高”径流风险的田块主要集中在流域的南部和中部,特别是在溪流交汇处和坡度较大的田块边缘(图SF9)。这些空间模式表明了地表水文连通性强的区域,是减少地表径流和控制土壤侵蚀的保护措施的优先位置。

3.1.2. 地下排水特征
绘制瓦片排水和土壤脆弱性图对于针对地下养分传输的干预措施至关重要。使用了三个互补的数据源来描述瓦片排水情况:(i)基于地形和土壤属性的ACPF预测,(ii)安大略省农业、食品和农业商业部(OMAFA)的瓦片排水记录和排水网络数据集,以及(iii)如图SF10所示的空间整合。ACPF分类显示64%的农业田块可能采用瓦片排水,反映了基于水文-地形条件的高排水潜力区域。相比之下,OMAFA数据集将88%的田块识别为采用瓦片排水,代表了基于现有记录的基础设施。虽然OMAFA数据集提供了排水的直接证据,但其空间覆盖不完整,可能无法捕捉到未记录或最近安装的系统。相反,基于ACPF的估计提供了连续的空间覆盖,但代表了潜在的排水覆盖情况。为了克服这些限制,将两个数据集整合起来,以更全面地表示地下排水情况。合并后的层将627个农业田块中的581个(93%)分类为采用瓦片排水,并显示出数据集之间的强空间一致性(图3)。这种整合通过捕捉观察到的基础设施和高排水可能性的区域,提高了对地下连通性的信心,从而为识别和优先考虑田块边缘的处理机会提供了更坚实的基础。

3.1.3. 土壤脆弱性评估
为了评估景观对养分损失的固有敏感性,在田块级别计算了土壤脆弱性指数(SVI)(图SF11),包括地表和地下途径。地表损失脆弱性地图突出显示了流域西部和南部地区的田块具有较高的侵蚀和径流潜力,这与地形较陡的区域一致。对于地下损失,采用了保守的方法,将瓦片排水田块赋予更高的脆弱性等级,以反映排水基础设施提供的直接养分输出通道。因此,中央和北部地区的田块,尤其是瓦片排水普遍存在的区域,表现出较高的地下脆弱性。这些SVI地图提供了主导传输途径的空间明确评估,并通过细化BMP目标来补充径流风险分析。

3.1.4. 田块内和田块边缘的保护措施选址
空间分析识别了流域内多样且空间结构化的保护机会组合。中央和东北部地区的田块表现出较高的连续玉米种植强度,表明这些区域是通过作物多样化和保护管理措施改善土壤健康的优先目标。高地地区,特别是在北部流域,非常适合实施草皮水道和等高缓冲带等侵蚀控制措施(图SF13)。这些机会与河流能量较高和土壤水分积累增加的区域相吻合,表明这些区域容易发生集中流动和土壤流失。此外,在具有短暂流动路径的高地地区,特别是北部和西部流域,识别出了大量潜在的水和沉积物控制盆地(WASCoBs)位置(图SF13)。适合水分保持和处理措施的地形洼地分布在流域的北部和南部地区。这些包括湿地恢复(图SF14)和去除养分的湿地和池塘(图SF14)的机会,可以在径流进入溪流网络之前拦截和处理径流。

在瓦片排水区域,田块边缘的处理机会广泛存在。中央流域的排水水管理(DWM)适宜性特别高,这一点得到了ACPF建议的位置(图SF15)和OMAFA控制排水灌溉指数(CDSI)(图SF15)的支持。潜在的脱氮生物反应器位置,即利用木屑等碳基质促进微生物脱氮并降低瓦片排水水中硝酸盐浓度的田块边缘处理系统,在Medway Creek流域广泛分布(Carstensen等人,2020年)。ACPF建议的脱氮生物反应器位置在Medway Creek流域广泛分布,通常对应于可能的瓦片排水出口位置(图SF16)。地表和地下磷捕获器(P-Traps),即利用富铁砂等反应介质从地表径流或排水水中去除溶解磷的工程系统(Penn等人,2021年),在ACPF建议的高径流风险和显著瓦片排水连通性区域最为适用(图SF16)。

3.1.5. 河岸管理机会
河岸评估揭示了大量的目标缓冲带放置和河道内修复机会。通过整合河道上方高度(HAC)(图S17)和相对径流输送(图SF18),可以根据河岸在水文连通性和养分传输中的功能作用对河岸段进行分类。高优先级的河岸区域被定义为关键区域,其特征是相对于河道的高度较低(<1.5米HAC)和较大的贡献面积,表明这些区域具有强烈的径流输送和较高的养分拦截潜力。这些区域主要位于南部和西南部次流域。在流域尺度上,大约三分之一的河岸流域被分类为关键区域,多物种缓冲带和深根植被是次常见的功能类别(图SF19)。此外,大约一半的流域河岸流域被识别为适合或有条件适合实施饱和缓冲带,特别是在瓦片排水广泛和地下脆弱性较高的区域(图SF20)。这些区域是拦截富含硝酸盐的瓦片排水并在其到达溪流网络之前进行处理的优先位置。最后,南部和中央溪流段被识别为适合实施两阶段沟渠,提供了额外的径流和沉积物保留潜力(图SF21)。

3.2. 田块评估和观察到的保护差距
对138个农业田块进行了调查,以评估ACPF的输出并评估现有的BMP实施机会。调查结果揭示了ACPF建议的保护机会与实际实施措施之间存在显著差距。最常见的观察到的BMP是提供基本河岸稳定的狭窄植被缓冲带(28.26%)和结构措施,如集水池和WASCOBs(14.49%)。ACPF优先推荐的针对瓦片排水景观的先进处理措施,如饱和缓冲带、生物反应器、磷捕获器和控制排水措施则不存在。这代表了BMP实施方面的显著差距。在存在侵蚀和集中流动迹象的区域,草皮水道和等高缓冲带等保护措施很少见。虽然冬小麦广泛种植,但覆盖作物和保护性耕作难以观察到。景观中的一个主要特征是风障和小片林地的存在,通常位于田块边缘和排水渠道沿线。这些区域作为过滤带或边缘土地,有助于控制风蚀和水蚀。它们的普遍存在导致了“观察到的BMP”得分,反映了遗留的BMP或自然化的植被。田块验证得分系统地突出了这些不匹配之处,表明许多ACPF识别的高优先级区域缺乏足够的保护措施(图4,表2)。大多数田块的得分为1,因为ACPF建议的BMP存在或被其他有益措施(如林地和风障)所替代,这些措施在很大程度上起到了BMP的作用。相比之下,一些田块的得分为6,表明尽管ACPF推荐了某种BMP,但特定地点的条件证明了实施该BMP的合理性。这些发现强调了使用ACPF识别保护机会的重要性,并强调了进行田块评估以识别其他高优先级地点的必要性。**梅德韦溪流域BMP机会的现场验证评分**

| 现场验证得分 | 解释 | 含义 | 观察到的现场数量 |
|------------|--------|-------|------------|
| 1 | ACPF建议实施BMP,并且实际观察到1项 | 正确识别需求并实施了BMP | 67 |
| 2 | ACPF建议实施BMP,但实际安装了替代措施 | 替代BMP具有部分功能一致性 | 16 |
| 3 | ACPF未建议实施BMP,且未观察到/需要BMP | 正确识别低需求区域 | 84 |
| 4 | ACPF建议实施BMP,但实际上不需要 | 场地不需要干预 | 65 |
| 5 | ACPF未建议实施BMP,但有证据表明需要BMP | 错过保护机会 | 06 |

**注:**
- 尽管未观察到ACPF建议的BMP,但现场具体情况支持实施针对性的BMP。
- 41个案例中,ACPF建议的BMP未能实施,表明存在实施机会的缺失。

**ACPF建议的BMP与现场观察结果的对比分析(表3)**
几种措施(包括湿地、农场池塘、WASCoBs、草皮水道、控制式瓦片排水系统、生物反应器、磷捕获器、饱和缓冲带和两级排水沟)的敏感性非常低或为零,表明这些措施在该流域中不存在。相比之下,ACPF一致地识别出更多适合某些措施的潜在地点(如等高缓冲带和草皮水道),这些措施的敏感性较高,但特异性较低,且一致性较低。总体而言,大多数BMP类型的一致性较弱(κ ≈ 0),这突显了在安大略省农业景观中实施BMP的局限性,并强调了需要更灵活、数据驱动的方法。

**表3. 梅德韦溪流域138个农业地块中观察到的BMP与ACPF建议的BMP的性能指标对比**
| BMP类型 | 观察到的数量 | ACPF建议的数量 | 敏感性 | 特异性 | κ值 |
|--------|---------|-----------|--------|---------|-------|
| 湿地 | 12 | 24 | 0.014 | 0.174 | 0.812 |
| 农场池塘 | 12 | 37 | 0.051 | 0.222 | 0.928 |
| WASCoBs | 13 | 83 | 0.145 | 0.268 | 0.688 |
| 草皮水道 | 29 | 18 | 0.051 | 0.768 | 0.283 |
| 等高缓冲带 | 25 | 18 | 0.007 | 0.406 | 0.601 |
| 控制式瓦片排水 | 10 | 9 | 0.007 | 0.667 | 0.341 |
| 场地边缘生物反应器 | 10 | 1 | 0.007 | 0.862 | 0.862 |
| 地下过滤器 | 10 | 9 | 0.014 | 0.986 | 0.986 |
| 地表过滤器 | 10 | 8 | 0.275 | 0.725 | 0.725 |
| 河岸稳定 | 19 | 1 | 0.065 | 0.935 | 0.935 |
| 深根植被 | 17 | 8 | 0.174 | 0.399 | 0.674 |
| 多物种缓冲带 | 17 | 8 | 0.058 | 0.391 | 0.667 |
| 两级排水沟 | 10 | 3 | 0.283 | 0.464 | 0.775 |
| 饱和缓冲带 | 10 | 3 | 0.464 | 0.536 | 0.536 |
| 两级排水沟 | 10 | 3 | 0.391 | 0.609 | 0.609 |

**注:**
- “Obs.”表示在实地调查中观察到BMP的地块比例(0–1范围)。
- “Pred.”表示ACPF工具建议实施BMP的地块比例。
- “Acc.”、”Sen.”和“Spe.”是从混淆矩阵得出的标准分类指标。Cohen’s Kappa(κ)表示超出随机水平的一致性。
- TN = 真阴性(正确未识别),FP = 假阳性(过度预测),FN = 假阴性(错过机会),TP = 真阳性(正确识别)。

**总体评估**
ACPF的基线一致性率为89.1%,但这主要得益于98.3%的高敏感性和27.8%的低特异性。这种不平衡表明,虽然ACPF有效识别了需要并已实施BMP的地块,但也经常推荐了实际未实施这些措施的其他地点。这突显了ACPF主要用于识别潜在的保护机会,而非实际实施BMP,因此需要更数据驱动和适应性强的方法来提高场地级别的精度。

**ACPF输出进一步强调了梅德韦溪流域保护工作的挑战**
ACPF建议了16种不同类型的BMP,分布在601个(95.9%)农业地块中。结果表明,几乎所有地块都至少需要一种保护措施。虽然这表明ACPF在识别潜在地点方面有效,但建议的措施总数超出了实际可实施的数量。如果没有结构化的优先框架,大量的潜在地点可能会让土地管理者和政策制定者感到不知所措,从而忽视了最需要干预的关键区域。这些结果表明,ACPF是识别流域内保护机会的有效工具,但也需要数据驱动的方法来系统地根据当地条件和资源限制对地点进行排序和优先级划分。

**3.3 数据特征和探索性分析**
用于机器学习的数据集包含138个观测农业地块的62个地理空间和现场衍生属性。调查数据集中的综合BMP需求得分(CBNS)范围从0.5到6,平均值为3.68(±1.27 SD),这是预测建模的目标变量。CBNS的分布略微偏斜,第50百分位数为4.0,第75百分位数为4.5,表明大多数调查地块的保护需求为中等到高(图SF22)。此外,有无BMP地块的CBNS箱线图显示,管理措施有助于平衡保护需求(图SF22)。无BMP地块的中位数CBNS较高(4.75),四分位数范围较宽(IQR: 3.12–5.00;IQR = 1.88),表明保护需求未得到满足的比例较高。而有BMP地块的中位数CBNS较低(4.00),四分位数范围较窄(IQR: 2.88–4.50;IQR = 1.62),表明保护措施产生了积极影响。对CBNS的敏感性分析表明,所有替代权重配置与基线CBNS的Spearman等级相关性均大于0.99,说明CBNS对系数的合理变化具有鲁棒性。

**3.4 机器学习用于增强保护优先级**
为了开发更稳健、数据驱动的优先级框架,我们使用机器学习模型将现场观察结果与地理空间数据结合起来。本节介绍了旨在识别和排名农业地块以实施BMP的预测建模结果。

**3.4.1 模型训练和交叉验证**
数据集被分为训练集(n = 103)和测试集(n = 35),两组之间的CBNS分布相似(训练集:3.72 ± 1.16;测试集:3.56 ± 1.54),从而建立了平衡的评估框架。在对训练数据集进行超参数优化后,随机森林(RF)和XGBoost在重复交叉验证中的表现相当(表ST2)。RF的交叉验证误差(CV-RMSE = 1.19)略低于XGBoost(CV-RMSE = 1.22)。

**表4. 跨交叉验证、独立测试和重复训练-测试分割的模型性能比较**
| 模型 | 最佳CV-RMSE |
|------------|-----------|
| 随机森林(RF) | 1.19 |
| XGBoost | 1.22 |

**3.4.2 模型性能、解释和最终模型选择**
在独立测试数据集上的评估显示,两种模型的预测性能均有限(表4)。RF的R2为-0.05,RMSE为1.56,MAE为1.29;XGBoost的R2为-0.09,RMSE为1.59,MAE为1.32。这些结果表明,在这种单一分割情况下,两种模型都没有显著优于基于平均值的预测方法。这凸显了在数据稀疏场景中对CBNS进行建模的挑战。

**3.4.3 模型解释和最终模型选择**
RF和XGBoost在100次重复随机训练-测试分割中的表现一致但有限。RF的平均R2为-0.13(范围:-0.46至0.05),XGBoost的平均R2也为-0.13(范围:-0.70至0.06)。尽管解释能力较低,但误差指标在各个分割中保持稳定(RF:RMSE = 1.32 ± 0.11;XGBoost:RMSE = 1.32 ± 0.12)。学习曲线分析显示,RF在训练和验证误差之间的分离较小,表明模型存在系统性欠拟合,且捕获潜在关系的能力有限。相比之下,XGBoost的训练误差较低,且随着样本量的增加,验证误差逐渐减少,显示出更大的灵活性和更强的学习能力。尽管如此,两种模型在泛化能力上仍存在差异。

**3.4.4 模型性能、解释和最终模型选择**
在独立测试数据集上的评估显示,两种模型的预测性能均有限。RF的R2为-0.05,RMSE为1.56,MAE为1.29;XGBoost的R2为-0.09,RMSE为1.59,MAE为1.32。这些结果表明,在数据稀疏的情况下,两种模型的预测能力均不显著优于基于平均值的预测方法。RF和XGBoost在100次重复随机训练-测试分割中的表现一致但有限。RF的预测范围较窄(测试标准差为0.21),大多数预测值集中在3到4之间;XGBoost的预测范围稍宽(测试标准差为0.29),允许在地块之间进行更好的区分。SHAP分析显示,RF的预测范围较窄,预测值主要集中在3到4之间;XGBoost的预测范围稍宽,允许在CBNS值范围内进行更好的区分。这种区分对于精准保护至关重要,在精准保护中,确定各个领域的相对优先级通常比精确预测CBNS值更为重要。因此,模型选择基于稳定性、预测范围、学习行为和可解释性等多个因素,而不仅仅是一个单一的性能指标。据此,XGBoost因其更大的灵活性以及在样本量增加时更一致的学习行为而被选为最终的预测模型。

3.4.3 保护需求和不确定性评估的预测建模
经过验证的XGBoost模型被应用于Medway Creek流域内的所有627个农业地块,以生成一个连续的、空间明确的保护需求表示,作为地块优先级排序的基础。预测的CBNS值呈现出一个相对狭窄的分布,主要集中在中等程度的保护需求上。从完整预测集中得出的分位数阈值显示,第50百分位数为3.69,第80百分位数为3.86(见图SF29)。
根据这些阈值,地块被分为三个保护需求决策支持类别:低(CBNS < 3.69)、中(3.69 ≤ CBNS < 3.86)和高(CBNS ≥ 3.86)。这些类别为识别可能需要优先进行保护干预的地块提供了筛选级别的基础。分类结果显示,308个地块(49%)被归类为低优先级,193个地块(31%)为中优先级,126个地块(20%)为高优先级。高优先级组代表了那些实施保护干预最有可能带来显著环境效益的地块。预测的CBNS的空间模式表明,高优先级地块通常与水文连通性更强、坡度更陡峭以及土壤条件更脆弱的区域相关,这与已知的养分和沉积物传输驱动因素一致(见图6)。

下载:下载高分辨率图像(2MB)
下载:下载全尺寸图像
图6. 基于XGBoost预测的CBNS的所有627个农业地块的保护需求类别,用于优先考虑保护干预措施。

预测不确定性是通过200次迭代的自助法集成来量化的,在此过程中,模型在重新采样的观测数据集上反复训练,并应用于所有627个农业地块。这种方法为每个地块生成了CBNS值的分布,从中得出了标准差和95%置信区间。最终的不确定性估计显示,各类别之间的分布较为均衡,其中155个地块(25%)被归类为低不确定性,319个地块(51%)为中不确定性,153个地块(24%)为高不确定性。不确定性较高的地块通常与较宽的置信区间和接近分类阈值的CBNS值相关,反映了在数据有限条件下的分类敏感性。图7进一步说明了这种关系,其中CBNS值相似的地块显示出不同的置信区间宽度,表明整个景观中的模型确定性存在差异。值得注意的是,在较低的CBNS水平上,不确定性值更为分散,而中等到高CBNS的地块则倾向于聚集在较窄的不确定性范围内。尽管存在这些局部不确定性,但整体的空间优先级结构仍然稳定,支持了整个流域内相对地块排名的稳健性。

下载:下载高分辨率图像(370KB)
下载:下载全尺寸图像
图7. Medway Creek流域内所有农业地块的自助法平均预测CBNS与其相关不确定性之间的关系。

这些结果表明,该框架为相对优先级排序提供了连贯且可解释的基础,并通过图8中展示的空间明确不确定性量化得到了支持。空间分析不是将模型预测视为同等确定的,而是区分了模型有信心和预测不太可靠的地区。在所有优先级类别中,有22个地块被确定为高优先级且不确定性低(见图9)。这些地块是立即实施保护措施的强烈候选者,为规划提供了可靠的基础,并使决策制定所需的额外验证最小化。相比之下,104个高优先级地块表现出较高的不确定性,其中33个被归类为高不确定性,71个被归类为中不确定性。虽然这些地区也需要保护工作,但它们的排名更多依赖于模型的假设和可用数据的质量。对于这些地块,建议在进行进一步行动之前进行实地评估、收集额外数据或咨询利益相关者。中优先级组进一步强调了考虑不确定性的重要性。只有36个地块被归类为中优先级且不确定性低,而大多数(157个)地块显示出中等到高的不确定性。另一方面,97个地块被归类为低优先级且不确定性低。共有211个低优先级地块表现出中等到高的不确定性,这降低了排名的可靠性,需要在数据改善后重新评估。然而,最终的实施优先级应考虑其他因素,如可行性、成本和利益相关者的限制,而不仅仅是CBNS提供的生物物理筛选。

下载:下载高分辨率图像(1MB)
下载:下载全尺寸图像
图8. 使用自助法得出的置信区间测量的XGBoost模型的相应预测不确定性,分为低、中和高不确定性区域。

4. 讨论
本研究介绍了一种综合的精准保护方法,该方法结合了农业保护规划框架(ACPF)和监督机器学习,以识别、预测和优先考虑瓦片排水流域中的保护需求。标准的ACPF工具能够有效地生成最佳管理实践(BMP)机会的全面清单。然而,当输出没有根据实地观察进行评估时,它往往会识别出大量潜在的BMP地点。这些发现与对ACPF的批评一致,批评指出它系统地识别了潜在的保护地点,但在不进行优先级排序的情况下无法产生确定性的输出(Porter等人,2025;Ranjan等人,2019)。ACPF建议与实际BMP存在之间的观察到的不一致性,特别是对于先进的田边和处理措施,反映了在爱荷华州、明尼苏达州和俄亥俄州报告的类似结果(Tomer等人,2020;Mahl等人,2015;McLellan等人,2018)。本研究明确将ACPF的输出与安大略省的实地条件联系起来,利用监督机器学习解决了BMP选址和运营优先级之间的关键差距。这种方法扩展了ACPF在全球土壤和水资源保护工作中的适用性。

本研究的主要贡献是开发了综合BMP需求得分(CBNS),该得分被概念化为一个综合的保护需求指标,而不仅仅是脆弱性指标。CBNS结合了观察到的退化指标和管理相关因素,包括BMP的存在和保护土地管理。通过纳入这些组成部分,得分在已经实施了缓解措施的情况下会降低,从而使CBNS能够代表农业地块中未满足的保护需求。例如,一个场地严重性中等但没有现有BMP且行作物管理密集的地块可能会因为缺乏缓解措施而获得相对较高的CBNS得分。相反,如果已经实施了有效的保护措施(如河岸缓冲区或WASCOBs),一个位于溪流附近的高度脆弱地块可能会获得较低的CBNS得分。这些例子表明,CBNS捕捉了环境脆弱性和管理条件之间的相互作用,而不仅仅是脆弱性本身。

在CBNS的预测建模中,土壤脆弱性和与水文连通性相关的地形指数影响模型预测。SHAP分析表明,模型输出主要由这些生物物理变量决定,产生的空间模式与脆弱性地图非常相似,特别是在靠近溪流的区域。鉴于地形驱动过程在养分传输中的主导作用,这是预期之中的结果。然而,脆弱性和优先级仍然是不同的。CBNS应被解释为保护需求的筛选级别指标,用于识别脆弱性与管理不足同时存在的区域。最终优先级排序需要考虑其他因素,包括可行性、成本和实施限制。这种区分与最近强调在保护规划中整合环境风险和实际决策因素的文献一致(Evenson等人,2021;Zimmerman等人,2019)。

机器学习模型表现出稳定但有限的预测性能。随机森林和XGBoost在交叉验证期间的行为相似;然而,独立评估和重复的训练-测试分割显示了解释能力较低但误差结构一致(RMSE ≈ 1.32 ± 0.12)。这种区别突出了模型稳定性和预测能力之间的差异。RMSE在重复分割中的低变异性表明了性能的可重复性,而负R2值表明当前的预测集和样本量不足以完全捕捉CBNS的变异性。在数据稀疏条件下进行环境建模时也报告了类似的挑战,其中有限的观测限制了跨异质景观的泛化(Lin & Wiegand,2023;Akselrud,2024;Koldasbayeva等人,2024)。依赖单一的训练-测试分割可能会掩盖这一限制。通过跨多个随机分割评估模型性能,本研究提供了更稳健的泛化评估,表明模型不确定性主要是由数据限制驱动的,而不是算法选择(Rounsevell等人,2021)。这一发现强调了在保护研究中重复评估机器学习应用的必要性。随机森林和XGBoost之间的差异进一步支持了这一解释。随机森林产生了较窄的预测范围,反映了其平均化的倾向和较高的偏差,而XGBoost生成了更宽的预测范围,并在地块之间实现了更好的区分。这种行为与先前的研究一致,表明提升算法在捕捉非线性关系方面更为有效,特别是在小型数据集中。然而,XGBoost相对于随机森林的适度改进表明,模型性能更多地受到数据可用性的限制,而不是算法选择。这一观察结果与更广泛的证据一致,即在复杂的环境系统中,提高数据质量和代表性往往比增加模型复杂性更有影响力(Lin & Yang,2022)。

尽管预测准确性有限,但这些模型有效地捕捉了保护需求的相对差异,而这正是精准保护的主要目标。基于百分位数的优先级方法,例如选择前20%的地块,通过依赖排名而不是绝对预测准确性,提供了一种稳健的决策机制。将CBNS预测与不确定性估计相结合进一步增强了决策支持。具有高预测需求和低不确定性的地块可以优先考虑立即实施,而具有高不确定性的地块可以指定进行进一步评估。这种方法确保了保护规划既受到相对保护需求的指导,也受到预测置信度的指导,同时避免了将模型输出直接解释为最终实施优先级(Wineland等人,2021)。由此产生的需求和不确定性地图为适应性流域规划提供了透明的、数据驱动的基础,使保护从业者能够在选择和实施特定地点的BMP之前筛选和评估候选地块(Tallis等人,2021)。在实践中,这种优先级排序支持适应性流域规划,保护机构工作人员或现场技术人员可以使用模型输出来识别和实地评估高优先级地点,然后再推荐特定地点的BMP。这种方法与最近强调在环境管理中考虑不确定性的决策制定策略一致(McIntosh等人,2011;Schlumberger等人,2026)。这种方法论基础可以通过系统地识别和分配所有地块中最合适的BMP来扩展,从而从地点优先级排序转向操作决策支持。因此,所提出的框架支持从静态目标定位向适应性和数据驱动的优先级排序的转变。

本研究存在几个局限性。首先,相对较小的观测数据集(n = 138)限制了机器学习模型捕捉水文、土壤特性和管理实践之间复杂相互作用的能力。其次,依赖于静态地理空间预测因子无法捕捉养分传输过程的时间变化,特别是在气候变化条件下。第三,ACPF存在结构上的限制,包括对地下过程的简化表示以及依赖于土壤和地形代理而不是动态水文建模。此外,基于地块的评估可能会引入主观性,虽然基于SHAP的可解释性提供了信息,但它不能替代利益相关者在决策中的参与。未来的研究应优先扩大观测数据集,整合动态预测因子(如降雨-径流事件和气候情景),并纳入影响BMP采用的社会经济变量。结合数据驱动模型和基于过程的模拟的混合方法,如土壤与水评估工具(SWAT)和流域评估有益管理实践的集成建模(IMWEBs),可能会进一步提高预测能力并支持从地块到流域规模的决策制定(Bodrud-Doza等人,2023)。

5. 结论
本研究解决了将空间明确的脆弱性转化为在不确定性下的可操作地块级优先级的挑战。通过将农业保护规划框架(ACPF)与基于观测的综合BMP需求得分(CBNS)和机器学习相结合,该研究开发了一个框架,用于量化并预测农业景观中的保护需求。结果表明,虽然ACPF有效地识别了潜在的保护机会,但它本身并不便于优先级排序。提出的CBNS-机器学习框架通过提供一种连续的、可解释的保护需求度量方法来克服这一限制,从而实现不同区域之间的空间差异化管理。该框架通过纳入不确定性,使决策者能够区分高置信度的保护需求区域和需要进一步评估的地点。尽管CBNS通过整合生物物理易感性和管理条件来量化未满足的保护需求,但它并不能完全确定实施优先级。有效的保护规划需要将这种基于需求的评估与可行性、成本和利益相关者考虑因素结合起来。机器学习模型表现出稳定的性能,并有效捕捉了保护需求之间的相对差异。这些发现支持使用基于百分位的排名方法进行决策,因为在许多情况下,相对优先级比精确预测保护需求更为重要。此外,该框架可以通过基于利益相关者反馈的多标准评估方法扩展到最佳管理实践(BMP)的选择中。

本研究提出了一个可扩展、可转移的框架,用于提高温带排水灌溉作物农业生态系统的保护精度。未来的研究应扩大观测数据集,纳入动态的环境和社会经济因素,并整合基于过程的建模方法,以提高预测性能并支持长期保护规划。这项工作有助于开发透明、数据驱动的决策支持系统,从而提高农业景观及其他领域的保护实践的效率和效果。

**关于手稿准备过程中生成式AI和AI辅助技术的声明**
在准备这项工作时,第一作者使用了生成式AI工具ChatGPT来协助审查和优化用于数据分析的Python代码。该工具仅用于代码结构的技术支持,并未参与研究的科学解释、分析或结论的制定。所有作者随后都对内容进行了审查、编辑和验证,并对手稿的完整性和准确性负全责。

**作者贡献声明**
刘永波:撰写——审阅与编辑、可视化、验证、监督、软件、资源、方法论、调查、形式分析、概念化。
Ram Yerubandi:撰写——审阅与编辑、可视化、验证、监督、软件、资源、项目管理、方法论、调查、资金获取、概念化。
Mckenna Thompson:撰写——初稿撰写、可视化、验证、形式分析、数据管理。
Kevin McKague:撰写——审阅与编辑、验证、监督、软件、方法论、调查、形式分析、概念化。
Dave James:撰写——审阅与编辑、可视化、验证、监督、软件、资源、调查、形式分析、概念化。
Ben DeVries:撰写——审阅与编辑、可视化、验证、监督、软件、资源、方法论、调查、形式分析、概念化。
Evan D.G. Fraser:撰写——审阅与编辑、可视化、验证、监督、软件、资源、方法论、调查、资金获取、概念化。
Md. Bodrud-Doza:撰写——初稿撰写、可视化、验证、软件、方法论、形式分析、数据管理、概念化。
杨万红:撰写——审阅与编辑、验证、监督、软件、资源、项目管理、方法论、调查、资金获取、概念化。

**未引用的参考文献**
Chan等人,2022年;Dagnew等人,2019年;McConnell和Burger,2011年;Psaltopoulos等人,2017年;Rohith等人,2024年;Tomer等人,2015年;USDA,2020年。

生物通微信公众号
微信
新浪微博


生物通 版权所有