病虫害管理在农业生产中起着关键作用,直接影响作物产量和质量[1]、[2]。传统的作物病害检测和早期预警主要依赖于人工田间检查和专家知识,这些方法耗时、劳动强度大,且准确性往往有限。鉴于这些限制,智能算法的集成已成为现代农业的重要方向[3]、[4]、[5]。
近年来,计算机视觉技术推动了作物病害诊断的自动化。特别是深度神经网络,由于其能够学习层次化的视觉表示,已成为主导方法[6]、[7]、[8]、[9]。然而,这些模型通常依赖于大量的标注数据,在应用于未见过的作物或少样本场景时往往表现不佳[10]。此外,这些方法将病害诊断视为黑盒分类问题,从而牺牲了可解释性,无法满足农民的个性化诊断需求。
大型语言模型(LLMs),如GPT系列[11]和Qwen系列,在多个领域展现了出色的语义理解和推理能力[12]。这些模型为农业病害诊断和管理提供了强大的方法论支持[13]。然而,由于农业问题的高度专业性以及预训练数据中农业知识的有限表示,直接将通用LLMs应用于农业特定任务仍然不够理想[14]。为了解决这一差距,一些研究尝试使用从书籍、网站和官方文档中获得的大规模农业文本来构建特定领域的LLMs用于作物病害管理[13]、[15]。与具有对齐图像-文本对的多模态数据集相比,这类文本资源更容易收集。然而,仅依赖文本无法捕捉作物病害的丰富视觉特征,从而限制了模型在实际应用中的诊断性能。
因此,大型多模态模型受到了越来越多的关注[16]、[17]。一种研究方法通过分别对图像和文本分支进行推理,然后融合输出来减轻对多模态数据集的依赖[18]。然而,这些方法通常存在视觉-语言融合深度不足的问题,阻碍了跨模态的深层语义对齐。另一种研究尝试构建端到端的多模态模型用于作物病害诊断[19],但这些模型通常受到作物和病害类型覆盖范围的限制,从而无法泛化到所有农业场景。
总之,农作物病虫害诊断存在三个关键限制:(1)由于数据可用性和计算资源的限制,大多数现有方法都是针对特定作物设计的,缺乏支持所有作物诊断的统一框架。(2)多模态集成能力较弱,视觉和文本特征之间的语义融合深度不足。(3)当前模型通常不可解释,无法提供关于决策过程的洞察,从而削弱了在实际农业环境中的信任度和实用性。
为了解决这些挑战,我们提出了CropGPT,这是一个不依赖于特定作物、可解释且高精度的多模态模型,用于作物病虫害诊断。首先,我们引入了一种系统和自动化的范式来构建包含53种作物和79种病虫害类型以及健康类别的多模态数据集。然后,我们通过将视觉编码器与大型语言模型集成来构建一个端到端的大型多模态模型。视觉编码器采用了我们提出的DynamicFocus模块来融合病害图像的多级视觉信息。同时,语言模型通过基于推理的指令调优进行优化,以生成诊断结果以及可解释的推理链和证据。此外,我们提出了一种测试时知识增强策略,增强了模型在训练期间未覆盖的作物上进行病害诊断的零样本能力。这使得模型无需重新训练即可进行准确诊断,从而实现了广泛的适用性,并支持所有作物类型的病害诊断。本工作的关键贡献如下:
(1) 开发了一个端到端且高精度的大型多模态模型,用于诊断农作物病虫害,解决了多模态特征融合的瓶颈问题。
(2) 提出了一种成本效益高的范式,用于构建高质量的多模态数据集,缓解了作物病虫害分析中图像-文本资源对齐不足的问题。
(3) 通过引入揭示其预测背后逐步过程的诊断推理链,增强了模型的可解释性。
(4) 通过测试时知识增强实现了强大的零样本能力,从而为在有限数据和资源条件下对所有作物的病虫害进行泛化诊断奠定了基础。