基于 Mask R-CNN 和 TensorRT 的高效草莓分割模型:为智慧农业精准 “摘星”

时间:2025年4月22日
来源:Artificial Intelligence in Agriculture

编辑推荐:

为解决草莓采摘成本高、时间长的问题,研究人员开展基于 Mask R-CNN 和 TensorRT 的草莓实例分割模型研究。结果显示优化后模型 mAP 达 83.17,FPS 提升至 25.46 ,大小减至 48.2MB ,为草莓自动采摘提供有效方案。

广告
   X   

在当今科技飞速发展的时代,农业领域也在不断探索智能化转型之路。草莓,作为一种深受大众喜爱的水果,其生产和消费近年来呈现出迅猛增长的态势。然而,草莓采摘过程却面临着诸多挑战。一方面,采摘工作需要大量人力,成本居高不下;另一方面,采摘耗时久,严重限制了每日的产量,难以满足日益增长的市场需求。为了突破这些困境,自动采摘技术成为了研究热点,而水果实例分割作为其中的关键环节,其重要性不言而喻。在此背景下,相关研究人员开展了深入探索,力求找到一种高效的解决方案。
此次研究致力于构建一个基于 Mask R-CNN 和 TensorRT 的高效草莓分割模型,研究成果发表于《Artificial Intelligence in Agriculture》。该研究成果对于推动草莓采摘自动化进程、降低生产成本、提高生产效率具有重要意义,有望为智慧农业的发展注入新的活力。

研究人员在开展此项研究时,运用了多种关键技术方法。首先,使用了 StrawberryDI 数据集,从中随机选取 3100 张图像生成 StrawDI Db1 数据集用于研究,并将标签转化为 COCO 格式。其次,采用 Mask R-CNN 架构,以 ResNet-FPN 为骨干网络进行特征提取。再者,利用 NVIDIA TensorRT 对模型进行优化,同时借助 Detectron2 库和 NVIDIA TAO Toolkit 分别进行模型的训练与优化。

下面来看具体的研究结果:

  1. 基于 Detectron2 训练及 TensorRT 优化的 Mask R-CNN:选用 Mask R-CNN R50-FPN 3× 预训练模型在自定义数据集上训练 4200 次迭代(12 个 epoch),批处理大小为 8。训练过程中,mAP 在第 6 个 epoch 左右快速增长,之后趋于稳定,训练损失逐渐下降并在第 3 个 epoch 左右收敛。模型 mAP 达到 83.46,在其他 mAP 指标上也表现良好,但 FPS 仅为 4,模型大小为 351MB。经 TensorRT 优化后,INT8 量化模型表现最佳,mAP 为 83.17,FPS 提升至 25.46,模型大小减小到 56.8MB 。
  2. 基于 NVIDIA TAO Toolkit 训练及 TensorRT 优化的 Mask R-CNN:TAO Toolkit 提供多种 ResNet 骨干网络的 Mask R-CNN 模型。所有模型在自定义数据集上训练 10500 步(15 个 epoch),批处理大小为 4。训练结果显示,以 ResNet-50 为骨干网络的模型在未修剪时 mAP 最高,而修剪并重新训练后,ResNet-34 骨干网络的模型在所有 mAP 指标上表现最优。进一步用 TensorRT 不同量化方法优化后,INT8 量化的 ResNet-34 骨干网络模型在 FPS 上表现突出,达到 27.28,mAP 为 76.97,模型大小为 54.7MB 。

研究结论和讨论部分指出,通过两种不同方法优化 Mask R-CNN 模型,得到的优化后模型在 mAP 和 FPS 上均优于之前的研究成果。其中,基于 Detectron2 训练且经 INT8 量化优化的 Mask R-CNN 模型(FPN-ResNet-50 骨干网络)综合性能最佳,其 mAP 比 TAO 模型高 6.20,虽 FPS 牺牲不到 2,但模型大小仅增加约 2MB。这一研究成果为草莓实例分割提供了高效的模型选择,为实现草莓自动采摘的实际应用奠定了坚实基础,对推动农业智能化发展具有重要的现实意义。同时,研究人员也提出未来可在嵌入式系统部署测试模型、根据水果成熟度标注数据集并重新训练模型以及与其他架构对比性能等研究方向,为后续研究提供了思路。

生物通微信公众号
微信
新浪微博


生物通 版权所有