利用多源时空数据预测中国东部县级地区的冬小麦产量:一种可解释的机器学习方法

时间:2026年5月18日
来源:Agricultural and Forest Meteorology

编辑推荐:

卢碧辉|于坤宇|邱琳|李华勇|王红星|张文宇|刘晓红|单杰|李楠江苏省农业科学院种质资源与生物技术研究所,南京 210014,中国摘要为应对区域产量预测中动态数据整合和模型可解释性方面的挑战,本研究评估了在统一的机器学习(ML)框架内整合高分辨率太阳诱导叶绿素荧光(SIF)数据集

广告
   X   

卢碧辉|于坤宇|邱琳|李华勇|王红星|张文宇|刘晓红|单杰|李楠
江苏省农业科学院种质资源与生物技术研究所,南京 210014,中国

摘要

为应对区域产量预测中动态数据整合和模型可解释性方面的挑战,本研究评估了在统一的机器学习(ML)框架内整合高分辨率太阳诱导叶绿素荧光(SIF)数据集(包括GOSIF和CSIF)、植被指数(VIs)以及气候数据在县级冬小麦产量预测中的实用性。我们从三个角度进行了系统评估:(1)将TabPFN与现有的ML模型进行基准测试;(2)分析整个生长季节中气候数据与遥感数据的重要性变化;(3)评估模型在多种条件下的鲁棒性和自适应预测行为,包括不同的环境胁迫年份、训练数据可用性的变化,以及年际和地理区域的时空泛化能力。整合多源数据提高了预测性能,组合数据模型的准确率最高(R²高达0.81)。预训练的TabPFN算法在不同情景下表现出较高的分布稳定性,通常在基线准确率上优于传统ML模型,在数据稀缺条件下仍能保持稳定性能,能够很好地泛化到未见过的年份,并以合理的精度捕捉未见地理区域的空间产量变化(皮尔逊相关系数r = 0.54)。重要的是,气候数据和卫星数据的预测贡献在整个生长季节中动态变化,随着遥感输入逐渐捕捉到更相关的冠层状态,气候数据的重要性逐渐降低。高分辨率SIF提供了一种比传统植被指数更平衡和更具韧性的策略,尤其是在异常年份,因为它能够捕捉到植被指数可能无法充分反映的生理胁迫信号。基于SHAP的可解释性分析表明,模型的预测逻辑从正常年份关注早期生长转变为在多个异常年份优先考虑中期生理胁迫信号。本研究系统地对比了数据、模型及其动态相互作用,为在多变环境条件下开发更鲁棒、可解释和适应性强的产量预测系统提供了有用的框架。

引言

小麦(Triticum aestivum L.)的生产稳定性对全球粮食安全至关重要,特别是在人口众多的发展中国家,这些国家的需求持续增长,而土地、水资源和其他农业资源却有限(Cao等人,2021;Shiferaw等人,2013;Zaveri和Lobell,2019)。气候变化进一步加剧了这一挑战,因为天气变化的增加和极端事件(如干旱和热浪)的频繁发生威胁到了小麦产量的稳定性(Akter和Islam,2017;Siebert等人,2017;Pickson和Boateng,2022)。因此,准确及时的区域小麦产量预测对于提供潜在粮食短缺的早期预警、支持农业政策制定、稳定市场以及指导主动适应策略至关重要(Anderson等人,2024;Zhou等人,2022)。
准确的产量预测受到作物生长、气象因素(如温度、降雨)和管理措施(如施肥、灌溉)之间复杂相互作用的影响(Hlávacová等人,2018)。现有的方法大致分为两类:机械作物生长模型(CGMs)和数据驱动的统计方法(Archontoulis等人,2020;Feng等人,2020;Li等人,2022)。尽管CGMs可以动态模拟作物生长过程,但它们通常是特定于作物的,并且需要大量的输入数据,包括土壤性质、天气条件和管理措施,以及大量的实验数据进行校准。这些要求使得CGMs耗时、成本高昂,且往往不适用于大规模的区域应用(Bali和Singla,2022;Li等人,2019)。
相比之下,数据驱动的方法,特别是利用机器学习(ML)和深度学习(DL)的方法,为区域产量预测提供了更有效的替代方案(van Klompenburg等人,2020)。这些方法对作物生理学的先验知识要求较低,因此非常适合大规模农业预测(Khan等人,2024;Xu等人,2021)。ML模型在处理多源、高维数据集和捕捉环境条件与作物产量之间的复杂非线性关系方面特别有效(Kamir等人,2020;Li等人,2022;Tang等人,2022)。常用的模型包括支持向量回归(SVR)和集成方法,如随机森林(RF)和极端梯度提升(XGBoost)(Arshad等人,2023;Feng等人,2020;Li等人,2023;Zhang等人,2023)。最近,TabPFN这种基于预训练的Transformer模型引起了越来越多的关注(Hollmann等人,2025)。通过结合贝叶斯推理和自注意力机制,TabPFN可以在没有基于梯度的训练或微调的情况下对复杂特征关系进行建模并进行稳健的推理。然而,其在作物产量预测中的应用仍然有限。
基于ML的作物产量预测模型通常将环境变量与卫星数据相结合。先前的研究表明,将气象和土壤信息与卫星观测相结合可以提高预测性能,并增强对环境-作物相互作用的理解(Cao等人,2020;Islam等人,2023;Wang等人,2020a)。气候变量是季节内产量变化的关键驱动因素(Peng等人,2018;Rattis等人,2021),而卫星观测提供了关于作物对环境条件响应的空间连续信息。植被指数(VIs),如归一化差异植被指数(NDVI)、增强植被指数(EVI)和近红外植被反射率(NIRv),已被广泛用于作物生长监测和产量估计(Islam等人,2023;Li等人,2022;Wang等人,2020b)。虽然传统的VIs主要反映冠层绿色度、叶面积和结构特性,但基于卫星的太阳诱导叶绿素荧光(SIF)提供了更直接的光合作用活动指标。SIF对光合作用动态和生理胁迫更敏感,在密集的冠层中不易饱和(Smith等人,2018),使其成为监测作物生产力的强大工具(Aleksandra等人,2020;Gu等人,2019;Kira等人,2024;Zhang等人,2019;Zhu等人,2023)。
然而,由于现有产品的局限性,使用卫星SIF进行作物产量预测受到了限制。例如,GOME-2 SIF的空间分辨率相对较低(Cai等人,2019),OCO-2提供的测量数据在空间上不连续(Yu等人,2019),而TROPOMI由于最近才发射,数据记录较短(Köhler等人,2018;Peng等人,2020)。最近,高分辨率SIF数据集,如基于Global OCO-2的太阳诱导叶绿素荧光(GOSIF)和连续SIF(CSIF),在作物产量研究中的使用越来越广泛(Li和Xiao,2019;Peng等人,2020;Zhang等人,2018;Zhou等人,2022)。例如,Liu等人(2022)证明,在胁迫条件下,CSIF在小麦产量预测方面的表现优于分辨率较低的GOME-2 SIF。Qiu等人(2022)发现,在监测美国中西部地区的干旱对作物生产力的影响方面,GOSIF的表现优于GOME-2 SIF和MODIS VIs。尽管如此,高分辨率SIF与VIs的系统性基准测试仍然有限,尤其是在长期期间和中国主要生产区域。此外,尽管已经分别研究了气候变量和VIs的季节效应(例如,Peng等人,2018;Wang等人,2020b),但气候、SIF和VIs之间的动态相互作用仍需进一步探索。特别是,它们的相对贡献如何随着小麦生长阶段的变化以及不同环境条件的变化而变化仍不清楚。现有模型往往将多源预测因子视为静态输入,对自适应预测机制、在不同条件下的模型鲁棒性以及使用SHAP等工具的可解释性分析关注不足。此外,像TabPFN这样的新兴模型在农业产量预测方面的潜力尚未得到充分探索。
为了解决这些不足,本研究在中国江苏省进行了基于ML的县级冬小麦产量预测研究。我们在统一的建模框架内整合了气候预测因子、VIs和高分辨率SIF数据。具体目标包括:(1)将TabPFN与现有的ML方法进行基准测试;(2)量化整个生长季节中预测性能和数据源贡献的时间演变;(3)评估在正常和异常条件下的模型鲁棒性、不同训练数据可用性以及时空泛化能力;(4)使用SHAP解释特征优先级模式,从而提供关于环境胁迫下SIF作用机制的见解。

章节片段

研究区域

本研究开发了一个用于预测江苏省冬小麦产量的框架,江苏省是中国五大小麦生产省份之一。位于中国东部沿海,江苏省贡献了全国约10%的冬小麦产量(图1)。该省从北纬30°45′到35°20′,东经116°18′到121°57′,包括13个地级市的77个县级行政单位。该地区的主要农业系统是稻麦轮作。

特征变量与冬小麦产量之间的时空相关性分析

研究了包括气候数据和卫星观测在内的预测变量与县级冬小麦产量之间的相关性,关键的三月至四月期间的时空模式显示在图3中,时间和空间模式显示在图4中。遥感预测因子与冬小麦产量的相关性比气候变量更强且更稳定。在整个生长季节中,包括SIFGOSIF、SIFCSIF、NDVI在内的遥感指标

不同数据源对冬小麦产量的预测性能

基于先前的研究(例如,Zhou等人,2022),我们的研究通过结合TabPFN和SHAP扩展了高分辨率SIF在华东地区冬小麦产量预测中的应用,以考察模型在胁迫条件下的行为和数据相互作用。我们的结果显示,整合气象信息和卫星观测数据获得了最强的预测性能,R²值高达0.81(图5c-d和表S1–2),超过了最近的基准

结论

本研究展示了将时空数据集与ML方法结合用于县级冬小麦产量预测的实用性。我们的结果显示,结合气候变量和卫星观测数据获得了最强的预测性能(R² = 0.72–0.81),优于仅依赖气候(R² = 0.60–0.78)或遥感数据(R² = 0.43–0.65)的模型。在测试的模型中,预训练的TabPFN算法在捕捉

CRediT作者贡献声明

卢碧辉:撰写 – 审稿与编辑,撰写 – 原稿,可视化,软件,方法论,调查,正式分析,概念化。于坤宇:撰写 – 审稿与编辑,监督,资金获取,概念化。邱琳:撰写 – 审稿与编辑,验证,监督,资源。李华勇:撰写 – 审稿与编辑,监督,资源。王红星:监督,资源。张文宇:软件,验证,资源。刘晓红:

生物通微信公众号
微信
新浪微博


生物通 版权所有