自适应增强与语义引导的通用多模态聚合网络在显著目标检测中的应用研究

时间:2025年6月5日
来源:Engineering Applications of Artificial Intelligence

编辑推荐:

针对复杂场景下显著目标检测(SOD)存在的信息不足、模态互补性利用不充分及语义引导缺失等问题,研究人员提出了一种融合RGB-D-T三模态的通用多模态聚合网络(UMANet)。通过自适应混合特征增强(AHFE)模块和全局语义挖掘(GSM)模块,实现了多模态特征的动态优化与语义信息深度整合,最终在VDT-2048数据集上超越19种先进方法,为跨场景SOD任务提供了高精度、强泛化性的解决方案。

广告
   X   

在计算机视觉领域,显著目标检测(Salient Object Detection, SOD)一直是核心研究方向之一。这项技术旨在从复杂场景中精准定位并分割最具视觉显著性的物体,为语义分割、目标跟踪等下游任务提供关键支持。然而,现有SOD方法面临三大瓶颈:单一模态(如RGB图像)在低光照等复杂场景下信息不足;多模态特征融合时难以充分挖掘互补信息;语义引导的缺失导致早期定位不准。这些问题严重制约了模型在真实场景中的泛化能力。

针对这些挑战,中国研究人员提出了一种革命性的解决方案——通用多模态聚合网络(UMANet)。该网络创新性地整合了可见光(RGB)、深度(D)和热红外(T)三模态数据,通过三重编码-增强融合-单流解码的架构设计,在VDT-2048数据集上实现了突破性进展。相关成果发表于《Engineering Applications of Artificial Intelligence》,为跨模态SOD研究树立了新标杆。

研究团队采用三大关键技术:1) 基于VGG16的三流编码器并行提取RGB/D/T特征;2) 自适应混合特征增强(AHFE)模块通过注意力机制动态整合跨模态互补信息;3) 全局语义挖掘(GSM)模块通过高层特征渐进融合提取语义线索。实验使用1048组训练数据和1000组测试数据,采用SGD优化器进行模型训练。

架构设计
UMANet采用对称结构,包含三阶段处理流程:三流编码阶段使用VGG16骨干网络分别提取五层多尺度特征;特征增强与融合阶段通过AHFE模块抑制噪声并增强显著特征,GSM模块则挖掘语义信息指导后续融合;单流解码阶段采用渐进残差解码(PRD)模块逐步细化边界。

创新模块
AHFE模块通过通道-空间双重注意力机制,自适应加权不同模态的特征响应;GSM模块通过层级特征聚合生成语义热图;语义引导的跨尺度深度特征融合(SCSDF)模块利用语义线索定位显著区域,并融合相邻层级特征捕获多尺度上下文。

实验验证
在VDT-2048数据集上的对比实验显示,UMANet在Fβ
和Eξ
等指标上超越19种先进方法。消融实验证实三模态整合的必要性——在低光照场景中,RGB-D组合失败时T模态提供关键温度信息;热交叉场景下,RGB-T失效时D模态提供空间距离线索。跨数据集测试进一步验证了模型在复杂场景下的强泛化能力。

该研究首次实现了RGB-D-T三模态的端到端协同优化,其创新性体现在:1) 提出模态无关的对称架构,确保各模态特征平等处理;2) 通过语义引导的渐进式融合机制,解决了多尺度特征对齐难题;3) 残差解码结构有效抑制背景噪声。这些突破使得UMANet在工业检测、自动驾驶等需要高鲁棒性SOD的场景中具有重要应用价值。研究获得国家自然科学基金(52205119)等多项资助,相关代码与数据集有望推动整个领域的标准化进程。

生物通微信公众号
微信
新浪微博


生物通 版权所有