基于多尺度注意力与细节融合的视觉Mamba UNet(VMUnet-MSADI)在异常玉米粒分割中的创新应用

时间:2025年3月30日
来源:Scientific Reports

编辑推荐:

为解决传统U-Net架构在玉米粒图像分割中忽略像素级结构细节、边缘连续性差的问题,河南工业大学团队提出融合多尺度注意力(MSAM)与细节注入块(DIB)的VMUnet-MSADI模型。该模型通过视觉状态空间(VSS)模块捕获广域上下文信息,结合深度卷积多尺度编码机制,在公开数据集上实现95.96%的准确率,较现有最优方法提升0.9%,为农业自动化检测提供新方案。

广告
   X   

玉米作为全球重要粮食作物,其种子质量直接影响农业生产效率。然而,传统机械收获和储存过程中,玉米粒易受挤压、霉变等因素影响产生损伤,现有基于U-Net的分割方法往往忽视像素级结构细节,导致边缘连续性差。河南工业大学信息科学与工程学院的研究团队在《Scientific Reports》发表研究,提出创新性解决方案——融合多尺度注意力与细节注入的视觉Mamba UNet(VMUnet-MSADI)。该研究通过构建包含11,460张图像的玉米粒数据集,采用工业相机P600/G600采集美国、加拿大等5国样本,涵盖正常(NOR)和6类异常(F&S、SD等)玉米粒。

关键技术包括:1)视觉状态空间(VSS)模块捕获广域上下文;2)多尺度卷积注意力模块(MSAM)通过通道/空间注意力机制增强特征;3)细节注入块(DIB)融合高低层级特征;4)采用BceDice联合损失函数优化训练。实验设置256×256输入尺寸,50轮次训练,使用Adam优化器(学习率1e-3)。

研究结果显示:在编码器阶段,VSS模块通过SS2D核心组件实现长程依赖建模,其离散化线性常微分方程系统(公式1-4)有效提升特征提取能力。多尺度注意力机制中,通道注意力(CAB)采用最大/平均池化双路径(公式12),空间注意力(SAB)使用7×7大核卷积(公式13),使模型在AP类玉米粒分割任务mDSC达0.938。DIB模块通过Hadamard乘积(公式7)实现跨层级特征融合,在BP类样本上mIoU提升2.1%。最终模型在测试集达到95.96%准确率,较VMUNetV2提升0.9%,参数量控制在103.23M。

该研究的突破性在于:首次将Mamba架构的序列建模优势引入农业图像分割,通过MSAM+DIB双模块设计解决传统CNN局部感受野限制。在ISIC2018皮肤病变分割任务中F1-score达0.913,验证了跨领域适用性。未来可通过动态权重调整和轻量化设计进一步优化,为智慧农业中的实时质量检测提供可靠技术支撑。

生物通微信公众号
微信
新浪微博


生物通 版权所有