基于 H-RT-DETR 的无人机遥感图像玉米苗期植株识别研究

时间:2025年5月15日
来源:Plant Methods

编辑推荐:

为解决传统人工监测玉米苗期费时易错、无人机遥感图像中小目标检测难的问题,研究人员开展基于分层特征提取和 RT-DETR 的 H-RT-DETR 模型研究。结果显示该模型 mAP0.5–0.95达 51.2%,FPS 达 84f/s,为玉米苗情实时监测提供技术支撑。

广告
   X   

在农业现代化进程中,玉米作为我国主要粮食作物,其苗期生长状态的精准监测对产量预估与田间管理至关重要。传统人工计数方式耗时费力,且在复杂田间环境下易受杂草、地形等干扰,难以满足实时性需求。无人机(UAV)遥感技术虽能高效获取作物图像,但图像中玉米幼苗常以小目标形式存在,背景噪声多、目标特征不显著,导致基于传统卷积神经网络(CNN)的检测模型(如 YOLO 系列)面临检测精度低、实时性不足等挑战。如何突破小目标检测瓶颈,实现玉米苗期植株的快速精准识别,成为农业遥感领域亟待解决的关键问题。

为此,江苏大学的研究人员开展了相关研究,旨在开发一种适用于无人机遥感图像的玉米苗期植株检测模型。其研究成果发表在《Plant Methods》,提出的 H-RT-DETR(Hierarchical-Real-Time DEtection TRansformer)模型通过结构创新,显著提升了小目标检测性能,为玉米苗情监测提供了新的技术路径。

研究人员主要采用了以下关键技术方法:

  1. 分层特征提取网络(Hierarchical Feature Representation, HFR):替代传统 ResNet backbone,通过四层 Transformer Block 提取多尺度特征,包括高分辨率粗特征和低分辨率细粒度特征,增强对不同大小目标的表征能力。
  2. 高效自注意力机制(Efficient Self-Attention):在 Transformer Block 中引入降维比例 R,将计算复杂度从 O (N2) 降至线性级别,在保证速度的同时提升全局特征建模能力。
  3. 端到端检测框架:基于 RT-DETR 架构,无需非极大值抑制(NMS)后处理,直接输出检测结果,提升推理效率。

模型训练与性能验证


研究团队在江苏农业博览园采集了玉米苗期无人机图像(飞行高度 10 米,分辨率 8192×5460 像素),经裁剪、数据增强后构建包含 3360 张训练集、960 张验证集和 480 张测试集的数据集。通过对比 YOLOv5、YOLOv7、YOLOv8、YOLOX 及 RT-DETR 等模型,H-RT-DETR 展现出显著优势:

  • 检测精度:mAP0.5–0.95为 51.2%,mAP0.5达 94.7%,平均召回率(AR)68.5%,均优于对比模型。
  • 实时性能:帧率(FPS)达 84f/s,虽略低于 RT-DETR(87f/s),但无需 NMS 操作,计算效率更高。
  • 计数实验:在 10 张测试图像(含 2613 株玉米苗)中,H-RT-DETR 精确率(Precision)99.88%,召回率(Recall)98.81%,误检与漏检率显著低于 YOLO 系列。

模型创新与局限


H-RT-DETR 的核心创新在于将 Transformer 的全局建模能力与分层特征提取结合,通过混合编码器(Efficient Hybrid Encoder)实现跨尺度特征融合,有效应对无人机图像中玉米苗的小目标特性。消融实验表明,Transformer Block 中高效自注意力模块的数量(N 值)直接影响精度与速度平衡,当 N=[2,2,2,2] 时,模型在准确率与实时性间取得最优解。

然而,研究仍存在一定局限性:实验仅在单一飞行高度(10 米)和较少噪声场景下验证,未涵盖复杂天气(如雾天)或高杂草密度环境;模型实时性较 RT-DETR 略有下降,未来需进一步优化计算复杂度。

研究意义与应用前景


该研究首次将分层 Transformer 架构引入玉米苗期检测,突破了传统 CNN 对小目标特征提取的局限性,为无人机遥感在智慧农业中的应用提供了高效解决方案。H-RT-DETR 不仅可直接用于玉米苗情监测,其多尺度特征融合与高效自注意力机制亦为其他作物(如小麦、水稻)的小目标检测提供了通用框架。结合边缘计算技术,该模型有望部署于无人机终端,实现田间作物生长状态的实时分析,为精准农业、智能植保及产量预测奠定技术基础,对保障粮食安全具有重要现实意义。

生物通微信公众号
微信
新浪微博


生物通 版权所有