# 基于集成学习绘制 2001 - 2020 年中国 1 公里分辨率大豆产量地图:突破与展望
在全球粮食安全面临诸多挑战的当下,大豆作为重要的农产品,不仅是蛋白质和油脂的关键来源,在农业、工业及经济可持续发展中也占据着举足轻重的地位。然而,中国大豆的国内产量远远无法满足庞大的市场需求,对进口的依赖程度极高。与此同时,现有的大豆产量空间分布数据存在着诸多问题。像农业气象站记录的产量数据,虽然在准确性上表现不错,但空间覆盖范围极为有限,难以反映大面积的产量差异;行政单位尺度的统计数据,便于分析不同地区间的产量差异,却无法展现区域内部的空间差异;而常用的栅格化大豆产量数据集,如 Harvested Area and Yield for 4 Crops(EarthStat)、Spatial Production Allocation Model(MapSPAM)和 Global Dataset of Historical Yields(GDHY),它们的时间或空间分辨率较低,部分数据系列仅有 2 - 3 年,根本无法满足稳健的统计分析需求。这些问题严重限制了在精准农业规划和管理中的应用,因此,开发一个高时空分辨率、高精度的多年大豆产量空间化数据集迫在眉睫。
为了解决这些问题,中国农业大学等机构的研究人员开展了一项极具意义的研究。他们利用集成学习方法和空间分解技术,通过融合多源数据,致力于生成中国的栅格化大豆产量地图。最终,研究人员成功开发出高分辨率的中国年度大豆产量数据集(ChinaSoyYield1km),该研究成果发表在《Scientific Data》上。
在研究过程中,研究人员运用了多种关键技术方法。首先是数据收集,涵盖了产量数据(包括市县级统计数据、气象站记录数据和常用栅格化产量数据)、环境数据(气候、遥感、管理和土壤数据)等多方面。接着对数据进行预处理,将时间尺度标准化以匹配大豆生长周期,对遥感图像进行重采样,并依据大豆种植面积提取数据。随后,运用 20 种机器学习模型进行建模,筛选出表现最佳的模型作为基础模型和元模型。通过 5 折交叉验证的堆叠模型进行集成学习,最后利用空间分解技术生成 1 公里分辨率的年度栅格化大豆产量地图,并通过与其他常用数据集对比进行精度评估。
下面来详细看看研究结果:
1. 模型性能评估
研究人员对 20 种机器学习模型的性能进行了全面评估。在不同区域,Extra Trees Regressor(ETR)和 CatBoost Regressor(CATBOOST)始终表现出色,XGBoost(XGBOOST)、Light Gradient Boosting Machine(LGBM)和 Random Forest Regressor(RF)也展现出了优秀的性能。因此,这 5 种模型被选作基础模型。在元模型的选择上,在北方产区(NPR)和黄淮海产区(HPR),CATBOOST 表现最佳;在南方产区(SPR),ETR 表现最优。同时,研究还发现不同产区的最佳基础模型数量有所不同,NPR 为 7 个,HPR 为 5 个,SPR 为 2 个145。
2. 变量相关性分析
通过相关性分析,研究人员发现不同变量与大豆产量之间的关系十分复杂。气候变量与大豆产量的相关性最强,其中最高温度(Tmax)和最低温度(Tmin)在三个产区都与大豆产量呈强正相关,这表明大豆生长对温度极为敏感。在遥感变量中,GOSIF 和净初级生产力(NPP)在 NPR 与大豆产量呈强正相关,而白天地表温度(LSTd)在 HPR 与大豆产量强正相关。在 SPR,由于气候温暖湿润,植被指数普遍较高,但大豆叶面积相对较小,导致归一化植被指数(NDVI)与大豆产量呈强负相关。管理变量与大豆产量的相关性较弱,不过在不同产区呈现出不同特征,在 NPR 呈负相关,在 HPR 和 SPR 呈正相关。土壤变量与大豆产量的相关性在不同产区差异显著,例如阳离子交换容量(CEC_SOIL)、黏土含量(CLAY)和有机碳(OC)在 NPR 与大豆产量强正相关,在 HPR 和 SPR 则呈负相关23。
3. 数据集精度验证
ChinaSoyYield1km 数据集与其他三个常用数据集(EarthStat、MapSPAM 和 GDHY)进行了全面对比验证。在县级尺度上,该数据集的均方根误差(RMSE)大多在 3.90 t/ha 以内,超过 90% 的区域 RMSE 在 2.10 t/ha 以内。其决定系数(R²)在大部分年份超过 0.50,这意味着该数据集能够捕捉到县级尺度上超过 50% 的产量变异性。与其他数据集相比,ChinaSoyYield1km 的 RMSE 更低,降幅在 0.18 - 0.60 t/ha 之间。在站点尺度上,该数据集与站点记录数据的 R² 为 0.30,RMSE 为 0.67 t/ha,且数据偏差最小,表现出较高的一致性678。
综合来看,本研究成功开发了 ChinaSoyYield1km 数据集,其在精度上远超现有常用数据集。这一成果对于农业研究、规划和政策制定意义重大,能够为相关工作提供更科学、精准的依据,助力提升大豆生产的效率和稳定性。不过,研究也存在一些局限性,如数据存在不确定性、预测变量选择不够精细等。未来的研究可以朝着使用更高精度和分辨率的数据,以及更先进的空间化方法等方向展开,有望进一步提升大豆产量估计的准确性和可靠性,为保障全球粮食安全做出更大贡献。