基于专家混合与场景感知的红外与可见光图像动态融合网络MoE-SPDF研究

时间:2025年10月26日
来源:Optics & Laser Technology

编辑推荐:

为解决红外与可见光图像融合中环境适应性差与模态内层次特征利用不足的问题,研究人员开展基于场景定制专家混合(CMoE)与跨模态显著性引导交互(CMSI)的动态融合网络研究,提出MoE-SPDF模型,实现了多场景自适应融合,在多项定量指标与下游任务中显著优于现有方法,为复杂环境下的多模态感知提供了新方案。

广告
   X   

在军事侦察、自动驾驶和安防监控等领域,红外与可见光图像融合技术发挥着至关重要的作用。红外图像能有效捕捉热辐射信号,在低光照或恶劣天气条件下突出关键目标,但对纹理细节表现不足;可见光图像擅长提供丰富的纹理和背景信息,却容易受光照变化和环境影响。传统融合方法大多采用固定框架,难以适应不同场景下模态信息强度的动态变化,导致融合结果出现信息模糊、细节丢失等问题。尤其在实际应用中,光照条件、背景清晰度等场景因素的变化会显著影响不同模态信息的表现强度,而现有方法缺乏对环境变化的感知和自适应调整能力,往往在复杂场景下表现不佳。
针对这些挑战,云南大学的研究团队在《Optics》上发表了一项创新研究,提出了一种基于专家混合的场景感知动态融合网络(Mixture-of-Experts-based Scene Perception Dynamic Fusion Network, MoE-SPDF)。该工作通过引入场景感知机制和动态专家调度,实现了对不同环境条件的自适应融合,显著提升了图像融合质量和下游任务性能。
研究人员采用多阶段网络架构,核心包括场景感知与特征提取(SPFE)、场景定制(SC)和特征融合(FF)三大模块。关键技术方法包括:1)使用卷积神经网络构建场景感知子网络,将可见光图像按光照和背景清晰度分为三个等级;2)设计跨模态显著性引导交互(CMSI)模块,通过双通道注意力机制提取并交互双模态显著性特征;3)构建场景定制专家混合(CMoE)模块,采用Top-K稀疏门控机制动态激活最相关的专家网络;4)提出自适应特征聚合混叠(AMFA)机制,对多层级特征进行加权融合;5)在MSRS、M3FD和LLVIP三个公开数据集上进行全面评估,采用VIF、QABF、FMI、QCB和QY等五项指标进行定量分析。
研究结果方面,通过系统的实验验证了各模块的有效性和整体性能:
场景感知与特征提取结果表明,设计的场景感知网络对三类别场景的分类准确率均超过0.9,F1分数高于0.92,为后续融合提供了可靠的场景指导信息。特征提取模块采用Transformer块处理分块后的图像特征,获得浅层、中层和深层的层次化特征表示。
场景定制模块的结果显示,CMSI模块通过跨模态显著性交互,有效增强了关键区域的响应,抑制了背景冗余信息。CMoE模块通过动态专家选择,针对不同场景条件激活最相关的专家组合,实现了场景自适应的特征处理。AMFA机制通过对浅层、中层和深层特征的自适应加权,优化了模态内层次特征的整合效果。
特征融合结果显示,MoE-SPDF在三个数据集上的多项评价指标达到最优。在LLVIP数据集上,取得了四项第一和一项第二的排名;在MSRS数据集上,所有指标均获得最高分;在M3FD数据集上,获得三项第一和两项第二的优异成绩。特别是在QABF、FMI和QCB指标上 consistently保持领先,表明该方法在边缘保持、信息保真和结构一致性方面具有显著优势。
消融实验通过12组对比试验验证了各模块的贡献。当移除场景感知模块时,模型性能显著下降,证明了场景自适应的重要性;去除CMSI模块导致跨模态交互能力减弱;移除CMoE模块则影响了专家选择的灵活性。不同专家数量的实验表明,Top-K(K=2)的专家选择策略在效果和效率间取得了最佳平衡。AMFA机制的消融研究证明,可学习的加权参数优于固定权重和简单卷积融合策略。
下游任务验证方面,语义分割实验结果表明,使用MoE-SPDF融合图像训练的分割模型在MSRS数据集上获得了最高的mIoU(0.7344)和Recall(0.8155)值,在9个语义类别中的6个类别上表现最佳,验证了融合结果对高层视觉任务的有效支撑。
研究结论与讨论部分指出,MoE-SPDF通过场景感知和动态专家调度机制,有效解决了红外与可见光图像融合中的环境适应性问题和模态内层次特征利用不足的挑战。该方法不仅在不同光照条件下都能保持稳定的融合性能,而且通过跨模态显著性交互和层次特征优化,显著提升了融合图像的质量和信息含量。值得注意的是,该方法在极端低光条件下仍能有效提取和保留关键信息,避免了常见方法中存在的亮度失真和细节丢失问题。
这项研究的重要意义在于:首先,提出了场景自适应的融合框架,为多模态图像处理提供了新的思路;其次,设计的CMSI和CMoE模块为特征交互和专家选择提供了有效方案;最后,全面的实验验证表明该方法在定量指标和视觉质量上均优于现有先进方法,且对下游任务有实质性的性能提升。未来工作可进一步探索更精细的场景分类标准、更轻量化的网络架构,以及扩展到其他多模态融合任务中。

生物通微信公众号
微信
新浪微博


生物通 版权所有