随着世界人口的增长,迫切需要增加粮食生产,以养活预计到2080年的103亿人(联合国,2024年)。然而,持续的气候变化对作物产量的提高构成了严重威胁(Feng等人,2019年;Liu等人,2023年)。小麦和玉米共同提供了全球大部分的热量,并主导着中国的粮食生产(Cai等人,2019年;Erenstein等人,2021年;Xu等人,2024年)。先进的产量预测使农业生产者能够调整农艺措施,市场管理者能够制定农业贸易计划,政策制定者能够做出明智的决策(Feng等人,2020年;Li等人,2023年)。因此,稳健的网格级别(例如,比县级分辨率高1公里×1公里)的小麦和玉米产量预测对于支持粮食安全规划至关重要。
产量预测方法通常分为基于过程的作物模型、统计模型和混合模型。作物模型基于生物物理知识(BK)模拟作物生长和产量形成,但其区域应用往往受到参数不确定性和关于管理实践及作物品种信息的缺乏的限制(Li等人,2023年;Wang等人,2022年)。相比之下,统计模型直接学习产量与气象数据或光谱指数(SIs)等独立变量之间的经验关系(Bai等人,2024年;Tian等人,2021年)。机器学习的快速发展进一步增强了这些模型捕捉复杂非线性关系的能力,但它们可能缺乏机制一致性(Araghi和Daccache,2025年;Cheng等人,2024c;Jiang等人,2019年)。这些权衡促使人们采用了将物理信息与数据驱动学习相结合的混合方法。
混合模型旨在通过将作物模型输出与遥感数据相结合,来结合基于过程的方法和统计方法的优点,这样可以在利用机器学习的预测能力的同时保持作物模型的物理可解释性。先前的研究表明,混合模型可以在考虑极端气候事件(ECEs)的情况下提高产量预测(Bai等人,2024年;Feng等人,2020年;Li等人,2023年)。然而,大多数这些研究依赖于站点级别或站点级别的记录,这限制了它们提供网格级别区域产量预测的能力。随着区域决策越来越需要空间明确的信息,利用多源网格化数据集来获取网格级别产量信息(Araghi等人,2022年)并设计一个能够在更细空间尺度上运行的综合混合框架变得至关重要。
多种数据源的出现为改进混合产量预测框架提供了额外的机会。太阳诱导的叶绿素荧光(SIF)为光合作用功能提供了直接的代理指标,并显示出监测作物生产力的价值(Guo等人,2024年;Liu等人,2024年;Kang等人,2023年)。然而,大多数区域产量模型仍然依赖于单一类型的预测因子或仅结合了有限数量的来源,并且通常在站点或县级尺度上进行评估(Cai等人,2019年;Ma等人,2024年)。在单个框架内系统地使用真正多源表示方法,同时结合SIF、SIs、BK和ECEs的情况在网格级别上仍然很少见。特别是,能够利用这些多样化的预测因子进行可靠网格级别产量预测的稳健数据驱动模型仍然缺乏。
数据驱动方法需要大量高质量样本,且在一定范围内模型性能通常与样本大小呈正相关(Priyatikanto等人,2023年;Zhang等人,2022年)。实际上,产量观测数据往往有限,从官方统计记录中获取额外训练样本往往不切实际。罕见的高产年份或作物歉收年份会导致样本不平衡,这可能在极端条件下降低预测的稳健性。合成少数样本过采样技术(SMOTE)可能有助于丰富有限的记录,但其对区域网格级别产量预测的实用性尚未得到充分测试(Ebrahimy等人,2023年)。合成过采样是否可以有效丰富有限的产量记录并提高网格级别预测的可靠性,对于实际应用来说仍然是一个重要的未解问题。
另一个关键挑战是复杂数据驱动模型的可解释性有限。许多区域产量预测研究优先考虑预测准确性,并依赖于复杂的机器学习算法,这些算法往往被视为“黑箱”(Hu等人,2023a;Li等人,2022年)。这样的模型通常无法提供关于哪些变量驱动产量变化以及不同信息源如何互补的见解。Shapley Additive exPlanations(SHAP)算法是一种先进的可解释性工具,可以全局和局部解释模型,并已在各种研究中得到广泛应用(Gaur和Drewry,2024年;Hu等人,2023b;Zhu等人,2023年)。然而,对于结合了SIF、SIs、作物模型输出和ECEs的网格级别产量模型,这些预测因子的相对重要性及其对不确定性的影响尚未得到系统量化。
中国西北部的关中平原是冬小麦和夏玉米的主要生产区。在这里,我们开发了一个用于关中平原网格级别产量预测的可解释数据驱动框架。我们试图解决以下研究问题:(1)这种多源表示方法与单一数据源模型相比,在多大程度上提高了网格级别产量预测的准确性?(2)有限的区域产量记录如何影响网格级别预测的稳健性和不确定性,数据驱动框架中的哪些方法可以缓解样本稀缺带来的限制?(3)不同数据源对产量预测的相对贡献和相互作用是什么?