通过基于数据的遥感和生物物理知识框架来预测作物产量：以中国关中平原的小麦和玉米为例

时间：2026年2月13日

来源：European Journal of Agronomy

编辑推荐：

关中平原小麦和玉米产量预测研究提出融合遥感数据（太阳诱导叶绿素荧光SIF、光谱指数SI）、生物物理模型（APSIM）及极端气候事件的多源数据驱动框架，通过合成数据增强（SMOTER）和可解释性分析（SHAP）显著提升网格级产量预测精度，NRMSE降低0.6%-39.0%。

程志凯|顾晓波|张圆玲|赵同同|孙世坤|杜亚丹|蔡焕杰

教育部农业土壤与水资源工程重点实验室，西北农林科技大学，陕西省杨陵市712100

摘要

在中国关中平原，准确的早期产量预测对于最大化收益和确保粮食安全至关重要。基于过程的作物模型通常受到不确定输入数据的限制，这限制了它们在区域网格级别（例如1公里×1公里）进行产量预测的能力。统计模型忽略了作物生长和发育的生物物理机制，其性能也受到可用训练数据的数量和质量的限制。因此，迫切需要一种更全面、更稳健的关中平原小麦和玉米产量预测方法。在这项研究中，我们开发了一个可解释的数据驱动框架，通过结合遥感数据（太阳诱导的叶绿素荧光，SIF；光谱指数，SIs）和生物物理知识（APSIM输出和极端气候事件数据）来预测小麦和玉米的产量。我们使用合成少数样本过采样技术（SMOTER）获得的高质量合成数据集训练了一个贝叶斯集成模型（BIM），以实现特定时间窗口内的准确收获期产量预测。结果表明，多源数据的整合减少了产量预测误差，与单一数据源模型相比，总体归一化均方根误差（NRMSE）降低了0.6％–39.0％。基于SMOTER合成数据集训练的数据驱动模型实现了最高的产量预测精度（小麦：NRMSE = 16.2％；玉米：NRMSE = 20.7％）。SIF对产量预测的贡献最大，并与其他特征变量（如地上生物量、干旱和低温胁迫）显示出强烈的相互作用和协同效应，进一步提升了模型性能。总体而言，所提出的数据驱动框架为改进网格级别产量预测提供了一种有前景的方法，并为农业系统的可持续发展提供了有益的见解。

引言

随着世界人口的增长，迫切需要增加粮食生产，以养活预计到2080年的103亿人（联合国，2024年）。然而，持续的气候变化对作物产量的提高构成了严重威胁（Feng等人，2019年；Liu等人，2023年）。小麦和玉米共同提供了全球大部分的热量，并主导着中国的粮食生产（Cai等人，2019年；Erenstein等人，2021年；Xu等人，2024年）。先进的产量预测使农业生产者能够调整农艺措施，市场管理者能够制定农业贸易计划，政策制定者能够做出明智的决策（Feng等人，2020年；Li等人，2023年）。因此，稳健的网格级别（例如，比县级分辨率高1公里×1公里）的小麦和玉米产量预测对于支持粮食安全规划至关重要。

产量预测方法通常分为基于过程的作物模型、统计模型和混合模型。作物模型基于生物物理知识（BK）模拟作物生长和产量形成，但其区域应用往往受到参数不确定性和关于管理实践及作物品种信息的缺乏的限制（Li等人，2023年；Wang等人，2022年）。相比之下，统计模型直接学习产量与气象数据或光谱指数（SIs）等独立变量之间的经验关系（Bai等人，2024年；Tian等人，2021年）。机器学习的快速发展进一步增强了这些模型捕捉复杂非线性关系的能力，但它们可能缺乏机制一致性（Araghi和Daccache，2025年；Cheng等人，2024c；Jiang等人，2019年）。这些权衡促使人们采用了将物理信息与数据驱动学习相结合的混合方法。

混合模型旨在通过将作物模型输出与遥感数据相结合，来结合基于过程的方法和统计方法的优点，这样可以在利用机器学习的预测能力的同时保持作物模型的物理可解释性。先前的研究表明，混合模型可以在考虑极端气候事件（ECEs）的情况下提高产量预测（Bai等人，2024年；Feng等人，2020年；Li等人，2023年）。然而，大多数这些研究依赖于站点级别或站点级别的记录，这限制了它们提供网格级别区域产量预测的能力。随着区域决策越来越需要空间明确的信息，利用多源网格化数据集来获取网格级别产量信息（Araghi等人，2022年）并设计一个能够在更细空间尺度上运行的综合混合框架变得至关重要。

多种数据源的出现为改进混合产量预测框架提供了额外的机会。太阳诱导的叶绿素荧光（SIF）为光合作用功能提供了直接的代理指标，并显示出监测作物生产力的价值（Guo等人，2024年；Liu等人，2024年；Kang等人，2023年）。然而，大多数区域产量模型仍然依赖于单一类型的预测因子或仅结合了有限数量的来源，并且通常在站点或县级尺度上进行评估（Cai等人，2019年；Ma等人，2024年）。在单个框架内系统地使用真正多源表示方法，同时结合SIF、SIs、BK和ECEs的情况在网格级别上仍然很少见。特别是，能够利用这些多样化的预测因子进行可靠网格级别产量预测的稳健数据驱动模型仍然缺乏。

数据驱动方法需要大量高质量样本，且在一定范围内模型性能通常与样本大小呈正相关（Priyatikanto等人，2023年；Zhang等人，2022年）。实际上，产量观测数据往往有限，从官方统计记录中获取额外训练样本往往不切实际。罕见的高产年份或作物歉收年份会导致样本不平衡，这可能在极端条件下降低预测的稳健性。合成少数样本过采样技术（SMOTE）可能有助于丰富有限的记录，但其对区域网格级别产量预测的实用性尚未得到充分测试（Ebrahimy等人，2023年）。合成过采样是否可以有效丰富有限的产量记录并提高网格级别预测的可靠性，对于实际应用来说仍然是一个重要的未解问题。

另一个关键挑战是复杂数据驱动模型的可解释性有限。许多区域产量预测研究优先考虑预测准确性，并依赖于复杂的机器学习算法，这些算法往往被视为“黑箱”（Hu等人，2023a；Li等人，2022年）。这样的模型通常无法提供关于哪些变量驱动产量变化以及不同信息源如何互补的见解。Shapley Additive exPlanations（SHAP）算法是一种先进的可解释性工具，可以全局和局部解释模型，并已在各种研究中得到广泛应用（Gaur和Drewry，2024年；Hu等人，2023b；Zhu等人，2023年）。然而，对于结合了SIF、SIs、作物模型输出和ECEs的网格级别产量模型，这些预测因子的相对重要性及其对不确定性的影响尚未得到系统量化。

中国西北部的关中平原是冬小麦和夏玉米的主要生产区。在这里，我们开发了一个用于关中平原网格级别产量预测的可解释数据驱动框架。我们试图解决以下研究问题：（1）这种多源表示方法与单一数据源模型相比，在多大程度上提高了网格级别产量预测的准确性？（2）有限的区域产量记录如何影响网格级别预测的稳健性和不确定性，数据驱动框架中的哪些方法可以缓解样本稀缺带来的限制？（3）不同数据源对产量预测的相对贡献和相互作用是什么？

研究区域

关中平原包括咸阳、宝鸡、渭南和西安等城市，其主要粮食生产区包括42个县级行政区（图1）。年降水量约为500–700毫米，年平均气温约为13°C。夏季炎热，而冬季寒冷干燥，因此关中平原被归类为干旱和半干旱地区。在关中平原，冬小麦通常在10月初至中旬播种，并在次年6月初收获

通过APSIM进行区域产量预测

首先使用从多个实验站点收集的测量数据对APSIM进行了校准和验证，以确保其能够合理反映关中平原的作物生长和发育情况。对于小麦，NRMSE的范围分别为20.0％–30.7％和22.1％–32.3％（图3）。对于玉米，NRMSE的范围分别为21.6％–28.7％和21.4％–31.8％（图4）。小麦和玉米产量的NRMSE值在验证数据集中均为22.1％，而在其他数据集中分别为19.9％和19.6％

多源数据的有效性

准确的区域产量预测对于确保粮食安全和缩小实际产量与潜在产量之间的差距至关重要（Li等人，2021年）。我们的结果证实，没有单一数据源足以捕捉最终产量。基于过程的APSIM受到模型结构、输入数据的不确定性和未知气象信息的限制（Cheng等人，2024c）。纯粹的遥感数据依赖于冠层反射率与产量之间的间接关系，因此无法