通过双注意力机制和Mamba模型实现跨模态图像融合

生物通首页 > 今日动态 > 正文

通过双注意力机制和Mamba模型实现跨模态图像融合

时间：2026年1月23日

来源：Expert Systems with Applications

编辑推荐：

双分支跨模态图像融合框架DAMFusion通过通道-空间注意力机制和改进Mamba网络，分别处理浅层纹理与全局语义特征，结合自适应语义融合策略动态交互两者，有效平衡局部细节与全局语义，在红外-可见光及医学图像融合任务中优于现有方法。

作者：攸电龙（Dianlong You）、王玉龙（Yulong Wang）、陶从国（Cunguo Tao）、陈振（Zhen Chen）、金顺福（Shunfu Jin）

中国河北省秦皇岛市燕山大学信息科学与工程学院，邮编066004

摘要

跨模态图像融合旨在整合来自不同成像源的互补信息，以生成具有全面信息和精细细节的高质量图像。尽管基于卷积神经网络（CNN）的方法取得了显著进展，但其固有的局部感受野限制了有效的全局信息建模能力；而基于Transformer的方法在捕捉长距离依赖关系方面表现出色，但受到计算复杂度的制约。我们提出了DAMFusion，这是一种双分支架构，通过注意力机制和状态空间模型将浅层纹理特征与全局语义特征分离。具体来说：1）设计了一个基于通道-空间注意力的浅层特征融合模块（SFFM），以替代传统的卷积操作，实现精确的局部特征提取；2）构建了一个结合视觉Mamba和动态卷积的高效改进模型，增强全局特征表示能力；3）采用基于空间归一化的自适应语义特征融合策略，建立浅层特征与全局特征之间的动态交互机制。大量实验表明，DAMFusion在红外-可见光融合和医学图像融合任务中表现出竞争力，客观指标和主观视觉质量均优于现有方法，从而为跨模态图像融合提供了新的技术范式。代码可在以下链接获取：https://github.com/youdianlong/DAMFusion.git

引言

跨模态图像融合（CMIF）作为图像处理的关键技术，旨在将多模态图像中的互补信息整合成一个具有更高信息熵和全面特征表示的单一图像，从而提供更准确可靠的视觉表示（Huang, Lin, Xu, Xia, Li, Li, Sang, 2025; Park, Vien, Lee, 2024; Tang, He, Liu, Duan, Si, 2023b）。近年来，CMIF在某些关键领域引起了广泛关注，如红外-可见光监控（Paramanandham & Rajendiran, 2018）、医学诊断（Peng & Deng, 2024）、目标检测（Jain, Zhao, González-Almagro, Gan, & Kotecha, 2023）和语义分割（Zhang et al., 2021a）。特别是，红外-可见光图像融合有效地结合了红外图像的热辐射信息与可见光图像的纹理结构和颜色信息（Huang, Lin, Xu, Xia, Li, Li, Sang, 2025; Wu, Nie, Wei, Zhang, Zhang, 2024; Yang, Liu, Huang, Wan, Wen, Guan, 2021）。对于医学图像，融合计算机断层扫描（CT）和磁共振成像（MRI）可以同时揭示人体组织和器官的特定生理或病理特征，为临床诊断提供更全面的信息支持（Mu, Wu, Liu, Zhang, Fan, Liu, 2024; Tang, Chen, Huang, Ma, 2024）。然而，CMIF在实际场景中仍面临几个难题：1）成像原理、特征分布和临床关注点的显著差异。例如，CT主要通过X射线提供骨骼和高密度组织的优秀可视化效果，而MRI则通过射频脉冲和梯度磁场在软组织对比度方面表现出色（Li, Pan, Zhang, Wang, & Yu, 2024）；2）互补信息缺乏交互机制，无法有效利用；例如，红外图像可以捕捉物体的热辐射信息，而可见光图像包含丰富的纹理细节和颜色信息；3）在高度保留结构细节和语义特征的同时，噪声和伪影难以有效抑制。

最近，一些相关研究尝试基于自动编码器（AE）、生成对抗网络（GAN）、卷积神经网络（CNN）、Transformer、扩散模型和Mamba等来解决CMIF问题（Li, Pan, Zhang, Wang, & Yu, Tang, He, Liu, Duan, Si, 2023b; Zhao, Bai, Zhang, Zhang, Xu, Lin, Timofte, Van Gool, 2023a）。然而，这些方法仅找到了部分解决方案：1）现有方法主要采用统一的框架处理特征，未能区分局部细节和全局语义的差异（例如DIDFuse（Zhao et al., 2020）和IFCNN（Zhang et al., 2020）；2）CMIF的核心在于如何自适应地为不同模态的特征分配权重，而现有方法如LRRNet（Li, Xu, Wu, Lu, & Kittler, 2023）和FreqGAN（Wang, Zhang, Qi, Yang, & Xu, 2025）通常使用预定义的权重或简单的注意力机制，难以应对复杂的成像条件变化；3）在融合过程中实现局部特征和全局语义之间的平衡仍是一个核心挑战，现有方法往往偏向于某一方面或直接采用加性融合策略（Ma, Tang, Fan, Huang, Mei, Ma, 2022; Zhao, Bai, Zhang, Zhang, Xu, Lin, Timofte, Van Gool, 2023a）；4）基于Mamba的方法在所有空间位置和特征尺度上均匀融合特征，缺乏处理跨模态信息异质性的区分能力。例如，FusionMamba（Xie, Cui, Tan, Zheng, & Yu, 2024）在每种模态上独立处理特征，没有考虑浅层纹理细节与全局语义背景之间的内在互补性。

受此启发，我们探索了一种结合双重注意力（D-A-M）和Mamba网络的跨模态图像融合方法，称为DAMFusion。我们的目标包括：1）区分局部细节和全局语义特征，实现多尺度特征的差异化处理；2）通过建立有效的交互机制动态融合局部和全局特征；3）通过专门的融合策略捕捉来自不同特征尺度的互补信息。为此，我们提出了三个关键点：1）通过SFFM中的通道-空间双注意力模块构建浅层/全局特征融合模块（SFFM）以挖掘浅层特征，以及GFFM中改进的选择性状态空间模块以捕捉全局语义特征；2）设计一个自适应语义特征融合模块，实现浅层局部特征与全局语义特征之间的动态交互，并增强特征互补性；3）开发具有级联并行注意力机制的SFFM以增强浅层特征，以及具有Mamba块和可学习描述性卷积的GFFM以进行全局语义建模。

本文的主要贡献如下：

•

我们提出了DAMFusion，一种跨模态图像融合框架，它将通道-空间注意力机制与改进的Mamba相结合，有效解决了基于CNN和Transformer的方法的局限性。

•

我们设计了一个基于通道-空间注意力的浅层特征融合模块，该模块具有动态生成的融合权重，用于保留局部信息并抑制噪声。同时，我们构建了一个基于Mamba的全局特征融合模块，该模块具有并行扫描机制和递归离散状态空间方程，以线性时间复杂度捕捉长期全局依赖关系。

•

我们提出了一种自适应语义特征融合策略，以建立浅层纹理特征与全局语义特征之间的动态交互，确保融合特征包含纹理结构和全局语义。

本文的其余部分安排如下：第2节讨论相关工作，第3节介绍DAMFusion的详细信息，第4节提出我们的算法并进行分析，第6节和第7节提供实验结果，第5节总结本研究结论。

基于深度神经网络的图像融合方法由于其出色的特征表示能力和端到端学习范式而成为研究热点（Li et al., 2024）。现有方法可以分为：传统的深度融合（例如基于AE、GAN和CNN的融合）、基于Transformer/扩散的融合以及基于Mamba的融合方法。

方法论

设计理念。我们的工作不是引入孤立的算法组件，而是强调针对跨模态图像融合特点的问题驱动架构设计。我们观察到，浅层特征和全局特征在空间局部性和频率分布方面具有根本不同的特性。基于这一观察，我们提出了一个非对称的融合框架，为对纹理敏感的浅层特征分配注意力机制，并结合Mamba技术。

实验

为了涵盖更通用和具有挑战性的CMIF案例，我们在实验中提出了以下三个研究问题（RQs）：

•

红外-可见光图像融合方法如何有效平衡显著热目标的保留与丰富纹理细节的捕捉？

•

医学图像融合如何有效整合跨模态图像的功能和解剖信息，同时保持诊断价值？

•

我们的框架在1)跨模态特征交互和2)方面是否有效？

结论

本文提出了一种有效的跨模态图像融合框架DAMFusion。它结合了通道-空间注意力机制和Mamba技术，有效解决了多模态图像融合的关键问题。具体而言，它包括构建级联并行通道-空间注意力机制以动态生成融合权重，利用改进的状态空间模型和并行扫描来捕捉全局依赖关系，以及基于空间的自适应融合策略。

作者贡献声明

攸电龙（Dianlong You）：概念化、方法论、形式分析、数据整理、初稿撰写、审稿与编辑。王玉龙（Yulong Wang）：概念化、方法论、形式分析、数据整理、调查、验证、初稿撰写、审稿与编辑。陶从国（Cunguo Tao）：调查、资源获取。陈振（Zhen Chen）：调查、资源获取。金顺福（Shunfu Jin）：资金获取、监督。