CropGPT：一个大型多模态模型，用于精准且可解释地诊断农作物病虫害

时间：2026年3月15日

来源：Journal of Industrial Information Integration

编辑推荐：

作物病虫害诊断中，现有方法依赖单一模态数据且缺乏可解释性。本文提出CropGPT模型，通过动态焦点模块提取多级视觉特征，结合大型语言模型的推理链生成可解释诊断，并引入测试时知识增强策略实现零样本诊断。实验表明，模型在79类病虫害中诊断准确率达0.931，相比基线提升35.6%，在10类未见过作物中准确率仍达79.5%。

张一丁|韩宗焕|陈健|徐畅|秦元泽|王波|张晓轩|张灵贤

中国农业大学工程学院，北京，100083，中国

摘要

准确及时地诊断农作物病虫害对于保障农业生产和质量至关重要。人工智能已成为这一领域的强大工具，显著提升了农作物健康管理中的决策能力。然而，现有的方法主要依赖于单一模态数据来诊断特定作物，缺乏可解释的诊断推理能力，从而限制了其在实际应用中对多种作物类型的可扩展性和泛化能力。为了克服这些限制，本研究提出了一个名为CropGPT的大型多模态模型，以实现跨所有作物类型的诊断并提供交互式诊断解释。CropGPT是一个端到端框架，集成了视觉编码器和一个大型语言模型。视觉编码器使用我们提出的DynamicFocus模块提取包含全局、局部和对象级别的多级图像特征。大型语言模型采用了思维链设计，能够逐步进行交互式诊断并附带解释性推理。为了有效微调我们的模型并在各种作物上实现强大的性能，我们基于自动化且成本效益高的范式构建了一个名为CropInstruct的数据集，显著缓解了高质量多模态作物病害数据的稀缺问题。此外，我们引入了一种测试时知识增强策略，无需重新训练即可提升模型的零样本诊断性能，进一步提高了模型对广泛作物类型的泛化能力。实验结果显示，CropGPT在79种作物病虫害类别上的诊断准确率为0.931（

\geq 35 .6 %

），图像描述方面的BLEU-4得分为71.2（

\geq 44 .4 %

），推理方面的BLEU-4得分为85.3（

\geq 47 .3 %

），优于GPT-4o等最先进的多模态模型以及单模态设置下的经典深度学习模型。在零样本评估中，它在10种未见过的作物上的准确率达到0.795，比Qwen-VL-Max高出7.3%。这些结果凸显了CropGPT的高精度、可解释性和跨作物类型的泛化能力。

引言

病虫害管理在农业生产中起着关键作用，直接影响作物产量和质量[1]、[2]。传统的作物病害检测和早期预警主要依赖于人工田间检查和专家知识，这些方法耗时、劳动强度大，且准确性往往有限。鉴于这些限制，智能算法的集成已成为现代农业的重要方向[3]、[4]、[5]。

近年来，计算机视觉技术推动了作物病害诊断的自动化。特别是深度神经网络，由于其能够学习层次化的视觉表示，已成为主导方法[6]、[7]、[8]、[9]。然而，这些模型通常依赖于大量的标注数据，在应用于未见过的作物或少样本场景时往往表现不佳[10]。此外，这些方法将病害诊断视为黑盒分类问题，从而牺牲了可解释性，无法满足农民的个性化诊断需求。

大型语言模型（LLMs），如GPT系列[11]和Qwen系列，在多个领域展现了出色的语义理解和推理能力[12]。这些模型为农业病害诊断和管理提供了强大的方法论支持[13]。然而，由于农业问题的高度专业性以及预训练数据中农业知识的有限表示，直接将通用LLMs应用于农业特定任务仍然不够理想[14]。为了解决这一差距，一些研究尝试使用从书籍、网站和官方文档中获得的大规模农业文本来构建特定领域的LLMs用于作物病害管理[13]、[15]。与具有对齐图像-文本对的多模态数据集相比，这类文本资源更容易收集。然而，仅依赖文本无法捕捉作物病害的丰富视觉特征，从而限制了模型在实际应用中的诊断性能。

因此，大型多模态模型受到了越来越多的关注[16]、[17]。一种研究方法通过分别对图像和文本分支进行推理，然后融合输出来减轻对多模态数据集的依赖[18]。然而，这些方法通常存在视觉-语言融合深度不足的问题，阻碍了跨模态的深层语义对齐。另一种研究尝试构建端到端的多模态模型用于作物病害诊断[19]，但这些模型通常受到作物和病害类型覆盖范围的限制，从而无法泛化到所有农业场景。

总之，农作物病虫害诊断存在三个关键限制：（1）由于数据可用性和计算资源的限制，大多数现有方法都是针对特定作物设计的，缺乏支持所有作物诊断的统一框架。（2）多模态集成能力较弱，视觉和文本特征之间的语义融合深度不足。（3）当前模型通常不可解释，无法提供关于决策过程的洞察，从而削弱了在实际农业环境中的信任度和实用性。

为了解决这些挑战，我们提出了CropGPT，这是一个不依赖于特定作物、可解释且高精度的多模态模型，用于作物病虫害诊断。首先，我们引入了一种系统和自动化的范式来构建包含53种作物和79种病虫害类型以及健康类别的多模态数据集。然后，我们通过将视觉编码器与大型语言模型集成来构建一个端到端的大型多模态模型。视觉编码器采用了我们提出的DynamicFocus模块来融合病害图像的多级视觉信息。同时，语言模型通过基于推理的指令调优进行优化，以生成诊断结果以及可解释的推理链和证据。此外，我们提出了一种测试时知识增强策略，增强了模型在训练期间未覆盖的作物上进行病害诊断的零样本能力。这使得模型无需重新训练即可进行准确诊断，从而实现了广泛的适用性，并支持所有作物类型的病害诊断。本工作的关键贡献如下：

(1) 开发了一个端到端且高精度的大型多模态模型，用于诊断农作物病虫害，解决了多模态特征融合的瓶颈问题。

(2) 提出了一种成本效益高的范式，用于构建高质量的多模态数据集，缓解了作物病虫害分析中图像-文本资源对齐不足的问题。

(3) 通过引入揭示其预测背后逐步过程的诊断推理链，增强了模型的可解释性。

(4) 通过测试时知识增强实现了强大的零样本能力，从而为在有限数据和资源条件下对所有作物的病虫害进行泛化诊断奠定了基础。

部分摘要

人工智能在作物病虫害诊断中的应用

早期的方法依赖于手工制作的特征和经典机器学习模型（如SVM和随机森林）从作物图像中提取颜色、纹理或形状线索[20]。虽然这些方法轻量且可解释，但它们对背景复杂性的鲁棒性较差，且在作物和病害类型上的泛化能力有限。

随着深度学习的发展，卷积神经网络（CNNs）在自动学习判别能力方面表现出色

CropGPT的整体工作流程

我们提出的CropGPT的整体工作流程如图1所示。该过程从构建大规模多模态数据集开始，该数据集整合了两个主要数据源：（1）包含15种作物、32种病虫害类型和一个健康类别的高分辨率图像数据；（2）来自植物诊所的植物电子病历（PEMRs），涵盖47种作物和54种作物病虫害案例。图像数据首先经过

CropGPT的实验设置

在本研究的所有实验中，CropGPT采用InternVL-2.5-8B [38]作为基础模型。CropGPT的超参数设置总结在表5中。所有实验都在配备有Intel(R) Core(TM) i9-14900K CPU、128 GB RAM和24 GB内存的NVIDIA(R) RTX 4090 GPU的系统上进行。软件环境包括Ubuntu 22.04、Python 3.9.18、CUDA 12.1和PyTorch 2.1.2。这种设置确保了模型的有效微调和评估。

评估指标

为了评估

结论

本文提出了CropGPT，这是一个可解释且准确的多模态模型，用于诊断多种作物中的病虫害。首先通过标准化和自动化的流程构建了CropInstruct多模态数据集。然后，利用端到端多模态框架来增强细粒度的图像-文本语义对齐。为了进一步增强视觉感知，我们引入了一个层次化的图像预处理模块DynamicFocus。此外，CoT