本研究提出了一种数据驱动混合机器学习方法,用于预测农业总产量并结合资源效率分析。研究人员整合了1967–68至2023–24年共57年的印度农业统计数据,涵盖作物产量、土地利用、化肥与农药消耗等14个变量,来自印度储备银行(Reserve Bank of India, RBI)及农业部公开数据库。研究构建了梯度提升回归(Gradient Boosting Regression, GBR)、神经网络(Neural Network, NN)两种单一模型,以及三种混合集成模型:混合平均法(Hybrid Average)、堆叠法(Stacking, Out-Of-Fold)、特征增强法(Feature Augmentation, One-Hot Encoding)。模型优化采用网格搜索(GridSearchCV)结合5折交叉验证与早停策略(early stopping),并通过SHapley加性解释(SHapley Additive exPlanations, SHAP)提升模型可解释性。结果表明,堆叠模型表现最优,测试集决定系数(R2)达0.9729,均方根误差(Root Mean Square Error, RMSE)为0.989,平均绝对误差(Mean Absolute Error, MAE)为0.7553,且经配对t检验证实其性能显著优于单一模型。SHAP分析显示,化肥消耗量(N+P+K)与净灌溉面积是影响产量的主导因素。基于弹性分析,灌溉效率提高20%可减少化肥用量约0.377万公吨,预计每年节约成本约75.49千万卢比。该研究将机器学习预测与经济资源分析相结合,为可持续农业发展提供了数据驱动的决策支持。
研究背景与意义
农业是全球粮食安全与经济发展的基石,支撑着世界近60%人口的生产与生活。然而,气候变化、水资源短缺、土地退化及化肥过量使用等问题,使得农业生产面临严峻挑战。传统计量经济学与统计方法难以充分捕捉环境变量、水文条件与经济因素之间的复杂非线性关系。近年来,机器学习(Machine Learning, ML)因其在处理高维数据与复杂交互方面的优势,被广泛应用于农业预测与资源管理。已有研究多聚焦于单一模型或常规集成方法,缺乏结合长期历史数据、模型可解释性及资源效率综合分析的框架。针对印度农业系统的复杂性与政策需求,本研究旨在开发一种混合机器学习框架,实现高精度产量预测,并量化投入资源的边际效应,为可持续农业规划提供科学依据。
关键技术方法
研究人员使用了来自印度储备银行与农业部的57年全国汇总数据集,覆盖1967–68至2023–24年度,包含作物产量、土地利用、化肥与农药消耗等14个初始变量。数据预处理包括缺失值填补、异常值处理(IQR法)、标准化(Z-score)及特征选择(基于Pearson相关系数的相关性过滤,阈值0.90)。研究构建了GBR与NN作为基础模型,并设计了三种混合集成策略:混合平均、堆叠(以岭回归为元学习器,采用5折OOF预测)、特征增强(GBR叶节点One-Hot编码扩展NN输入空间)。模型优化采用GridSearchCV与早停策略,评估指标包括R2 、RMSE与MAE。可解释性分析采用SHAP方法,资源效率分析基于弹性系数计算,通过控制单变量扰动评估产出响应。
研究结果
3.1 模型比较结果
测试集结果显示,堆叠模型在三项指标上均最优(R2 =0.9729,RMSE=0.989,MAE=0.7553),显著高于GBR与NN。混合平均模型次之,特征增强模型在精度略低的情况下提供了更丰富的特征解释。重复5折交叉验证与配对t检验证实堆叠模型的优越性具有统计学意义。
3.2 可视化分析
实际值与预测值散点图、趋势图与残差图表明,堆叠模型预测值与观测值最接近,残差分布最均匀。SHAP分析一致显示,净灌溉面积与化肥消耗是产量的最主要影响因子,其中堆叠模型的特征贡献分布最为集中,特征增强模型则揭示了GBR衍生特征的交互作用。
3.3 误差分析
堆叠模型在所有误差指标上均最低,混合平均与GBR表现稳定,NN与特征增强模型的测试误差相对较高。
3.4 资源分析
弹性分析表明,净灌溉面积的正向弹性最高(20.91),而总灌溉面积呈负弹性(-4.56),提示提升灌溉效率比单纯扩大灌溉面积更有效。灌溉相关因素合计贡献约35.42%的总正弹性。场景模拟显示,灌溉效率提高20%可减少化肥用量0.377万公吨,经济价值约75.49千万卢比。
讨论与结论
本研究提出的混合机器学习框架有效结合了GBR的结构化学习能力与NN的非线性拟合能力,在长时序农业数据上实现了高精度预测。SHAP分析增强了模型透明度,明确了关键驱动因素。弹性分析将预测结果转化为可量化的资源优化策略,为政策制定者提供了减少化肥依赖、提高水资源利用效率的直接依据。研究局限在于数据集为国家层面汇总,未纳入气象变量与区域异质性,未来可通过引入气候因子、分区域建模及实时数据流进一步提升适用性。该研究发表于《Journal of Hazardous Materials Advances》,为农业资源管理与可持续发展提供了可推广的数据驱动范式。
打赏