跨模态图像融合(CMIF)作为图像处理的关键技术,旨在将多模态图像中的互补信息整合成一个具有更高信息熵和全面特征表示的单一图像,从而提供更准确可靠的视觉表示(Huang, Lin, Xu, Xia, Li, Li, Sang, 2025; Park, Vien, Lee, 2024; Tang, He, Liu, Duan, Si, 2023b)。近年来,CMIF在某些关键领域引起了广泛关注,如红外-可见光监控(Paramanandham & Rajendiran, 2018)、医学诊断(Peng & Deng, 2024)、目标检测(Jain, Zhao, González-Almagro, Gan, & Kotecha, 2023)和语义分割(Zhang et al., 2021a)。特别是,红外-可见光图像融合有效地结合了红外图像的热辐射信息与可见光图像的纹理结构和颜色信息(Huang, Lin, Xu, Xia, Li, Li, Sang, 2025; Wu, Nie, Wei, Zhang, Zhang, 2024; Yang, Liu, Huang, Wan, Wen, Guan, 2021)。对于医学图像,融合计算机断层扫描(CT)和磁共振成像(MRI)可以同时揭示人体组织和器官的特定生理或病理特征,为临床诊断提供更全面的信息支持(Mu, Wu, Liu, Zhang, Fan, Liu, 2024; Tang, Chen, Huang, Ma, 2024)。然而,CMIF在实际场景中仍面临几个难题:1)成像原理、特征分布和临床关注点的显著差异。例如,CT主要通过X射线提供骨骼和高密度组织的优秀可视化效果,而MRI则通过射频脉冲和梯度磁场在软组织对比度方面表现出色(Li, Pan, Zhang, Wang, & Yu, 2024);2)互补信息缺乏交互机制,无法有效利用;例如,红外图像可以捕捉物体的热辐射信息,而可见光图像包含丰富的纹理细节和颜色信息;3)在高度保留结构细节和语义特征的同时,噪声和伪影难以有效抑制。
最近,一些相关研究尝试基于自动编码器(AE)、生成对抗网络(GAN)、卷积神经网络(CNN)、Transformer、扩散模型和Mamba等来解决CMIF问题(Li, Pan, Zhang, Wang, & Yu, Tang, He, Liu, Duan, Si, 2023b; Zhao, Bai, Zhang, Zhang, Xu, Lin, Timofte, Van Gool, 2023a)。然而,这些方法仅找到了部分解决方案:1)现有方法主要采用统一的框架处理特征,未能区分局部细节和全局语义的差异(例如DIDFuse(Zhao et al., 2020)和IFCNN(Zhang et al., 2020);2)CMIF的核心在于如何自适应地为不同模态的特征分配权重,而现有方法如LRRNet(Li, Xu, Wu, Lu, & Kittler, 2023)和FreqGAN(Wang, Zhang, Qi, Yang, & Xu, 2025)通常使用预定义的权重或简单的注意力机制,难以应对复杂的成像条件变化;3)在融合过程中实现局部特征和全局语义之间的平衡仍是一个核心挑战,现有方法往往偏向于某一方面或直接采用加性融合策略(Ma, Tang, Fan, Huang, Mei, Ma, 2022; Zhao, Bai, Zhang, Zhang, Xu, Lin, Timofte, Van Gool, 2023a);4)基于Mamba的方法在所有空间位置和特征尺度上均匀融合特征,缺乏处理跨模态信息异质性的区分能力。例如,FusionMamba(Xie, Cui, Tan, Zheng, & Yu, 2024)在每种模态上独立处理特征,没有考虑浅层纹理细节与全局语义背景之间的内在互补性。
受此启发,我们探索了一种结合双重注意力(D-A-M)和Mamba网络的跨模态图像融合方法,称为DAMFusion。我们的目标包括:1)区分局部细节和全局语义特征,实现多尺度特征的差异化处理;2)通过建立有效的交互机制动态融合局部和全局特征;3)通过专门的融合策略捕捉来自不同特征尺度的互补信息。为此,我们提出了三个关键点:1)通过SFFM中的通道-空间双注意力模块构建浅层/全局特征融合模块(SFFM)以挖掘浅层特征,以及GFFM中改进的选择性状态空间模块以捕捉全局语义特征;2)设计一个自适应语义特征融合模块,实现浅层局部特征与全局语义特征之间的动态交互,并增强特征互补性;3)开发具有级联并行注意力机制的SFFM以增强浅层特征,以及具有Mamba块和可学习描述性卷积的GFFM以进行全局语义建模。
本文的主要贡献如下:
•我们提出了DAMFusion,一种跨模态图像融合框架,它将通道-空间注意力机制与改进的Mamba相结合,有效解决了基于CNN和Transformer的方法的局限性。
•我们设计了一个基于通道-空间注意力的浅层特征融合模块,该模块具有动态生成的融合权重,用于保留局部信息并抑制噪声。同时,我们构建了一个基于Mamba的全局特征融合模块,该模块具有并行扫描机制和递归离散状态空间方程,以线性时间复杂度捕捉长期全局依赖关系。
•我们提出了一种自适应语义特征融合策略,以建立浅层纹理特征与全局语义特征之间的动态交互,确保融合特征包含纹理结构和全局语义。
本文的其余部分安排如下:第2节讨论相关工作,第3节介绍DAMFusion的详细信息,第4节提出我们的算法并进行分析,第6节和第7节提供实验结果,第5节总结本研究结论。