MMIF的核心目标是整合来自多源图像的互补信息,从而生成具有增强视觉质量的融合图像。这些融合图像被广泛应用于各种下游计算机视觉任务中,包括语义分割、行人识别和对象检测(Jiang等人,2024年)。为了提高融合性能并提升下游任务的能力,已经开发了一系列融合架构(He, Cao, Zhang, Yan, Wang, Li, Xie, Hong, Zhou, 2025年;Huang, Li, Tan, Li, & Ye, Lei, Li, Liu, Wang, Zhou, Zhang, Wei, Kasabov, 2025年;Li, Yu, Chen, Ding, Wang, Liu, Zou, Ma, 2025c;Liu, Zhang, Zeng, Liu, Zhang, 2025a;Wang, Huang, Pan, Sun, Dai, Li, Ren, 2025a;Wang, Deng, Ran, Vivone, 2024a;Wang, Fang, Zhao, Pan, Li, Li, 2025c;Wang, Zhang, Qi, Yang, Xu, 2024b;Yang, Luo, Zhang, Chen, Wu, 2025b;Zhao, Bai, Zhang, Zhang, Xu, Lin, Timofte, Van Gool, 2023年;Zhao, Bai, Zhang, Zhang, Xu, Chen, Timofte, Van Gool, 2024年)。为了缩小高级语义域与融合表示域之间的显著差距,Yang等人(Yang等人,2025b年)提出了一种基于跨域知识蒸馏的融合方法,该方法由高级视觉任务驱动,适用于红外和可见光图像。由于大多数现有方法依赖于通用的特征提取策略来处理不同的融合任务,它们往往难以克服不同模态之间的融合障碍。为了解决这个问题,Lei等人(Lei等人,2025年)提出了一种多场景特征联合架构,该架构首先通过共享编码器提取统一的初始表示,然后通过特定于模态的编码器进一步捕获每种模态的独特信息。Wang等人(Wang等人,2024b年)将频域信息引入MMIF任务,并设计了一个统一的频域对抗学习网络。在这个框架中,低频和高频成分分别通过残差连接输入编码器和解码器,以补偿额外的轮廓和细节。
尽管现有架构取得了有前景的融合性能,但一个普遍且关键的局限性仍然存在:缺乏高效且有效的跨模态交互机制。如图1(a)和(c)所示,大多数现有的图像融合方法在特征提取阶段往往忽略了深度交互。相反,它们通常在编码器末端简单地连接跨模态特征,或者将独立特征直接输入到精心设计的解码器中进行重建(He, Cao, Zhang, Yan, Wang, Li, Xie, Hong, Zhou, 2025年;Li, Yu, Chen, Ding, Wang, Liu, Zou, Ma, 2025c;Wang, Guan, Qian, Cao, Ma, Bi, 2025d;Zhao, Bai, Zhang, Zhang, Xu, Lin, Timofte, Van Gool, 2023年)。尽管一些研究尝试通过像素级加法引入初步交互(Wang等人,2024b年),如图1(b)所示,但这种策略不足以有效处理不同模态之间出现的复杂语义对齐问题。此外,虽然一些高级方法在编码器中结合了基于跨注意力的交互机制(Ma, Tang, Fan, Huang, Mei, Ma, 2022年;Wang, Huang, Pan, Sun, Dai, Li, Ren, 2025a)以实现更深层次的特征对齐,但这些方法的计算复杂度随序列长度呈二次方增长,这严重限制了它们在实时场景中的适用性。因此,迫切需要开发一种新的交互范式,以实现高效且有效的跨模态融合,同时避免计算瓶颈。
最近,基于Mamba的架构作为MMIF任务的一个有前景的范式出现了(Li, Pan, Zhang, Wang, & Yu, Sun, Dong, Zhu, 2026年)。其线性计算复杂度大大降低了建模长距离特征依赖性的成本,同时实现了与基于Transformer的方法相当的性能。然而,如图2所示,基于Mamba的架构(Liu等人,2024年)在基本特征提取方面不如基于Transformer的架构,而它们主要采用的模态隔离扫描方案在长距离依赖性建模过程中无法建立跨模态特征交互。这促使我们开发一个更具弹性的融合框架,战略性地整合不同架构的互补优势,以应对多模态图像融合中的固有挑战。
鉴于此,我们提出了一种基于混合Mamba-Transformer架构的新融合网络,称为HTM。我们的设计遵循两个基本原则:1)基于Transformer的架构在基本特征提取方面优于基于Mamba的架构,尽管在融合交互能力方面表现相当,但它们输入依赖的二次方计算复杂度在多模态交互场景中带来了严重的内存限制;2)基于Mamba的架构本质上适合融合任务,其中支撑长距离依赖性建模的扫描机制提供了内在的灵活性,使得在受限条件下能够实现动态的多模态特征集成。具体来说,HTM采用了一个编码器-解码器宏观架构。编码器包括两个特定于模态的Transformer模块和一个模态交互的Mamba模块。Transformer模块通过通道级注意力计算为每种模态提取基本表示,大大减少了自注意力的计算开销。在Mamba模块中,我们设计了一种新颖的跨模态局部特征扫描机制,通过通道级联合扫描来对齐和融合不同模态中的相似特征(见图1(e))。
具体来说,我们观察到,在使用特定于模态的私有编码器的纯Transformer架构中,某些编码器特征图在相应通道上表现出语义相似性。这些通道的余弦相似性结果如图3所示。这一现象表明,Transformer架构能够在宏观结构层面将不同的模态映射到一致的语义空间中。然而,如果没有明确的跨模态交互,这些相似的表示仍然在特征空间中孤立存在,阻碍了有效信息集成。为了解决这个问题,我们提出了CMLFSM,它重新排列特征图以配对这些语义相似的通道,并通过Mamba的扫描机制促进深度交互。扫描机制中嵌入了一个窗口机制,以增强局部特征捕获能力。此外,我们结合了一个跨模态门控前馈网络,该网络利用跨模态信息流执行动态门控,有效减少了非必要信息的流动。考虑到无监督MMIF任务中固有的优化挑战,我们设计了一种两阶段训练策略。我们首先通过CLIP(Radford等人,2021年)优化可学习的提示,以提取目标融合图像的宏观语义表示。然后,我们将这些提示作为语义引导的损失组件,来指导HTM的优化轨迹。我们在两个关键任务上评估了我们的方法,包括红外和可见光图像融合(IVIF)和医学图像融合(MIF)。广泛的实验结果表明,HTM在多个定量指标和视觉比较中优于最先进的方法,展示了其卓越的融合性能和泛化能力。
本工作的主要贡献总结如下:
•我们对各种架构在MMIF任务中的固有优势和局限性进行了严格分析,从而构建了一个新颖的混合Transformer-Mamba框架。通过整合它们的互补能力,该架构实现了计算效率高的图像融合。
•在原始Mamba的基础上,我们提出了一种新颖的跨模态局部特征扫描机制。通过跨模态进行通道级联合扫描,它实现了高效的跨模态特征交互。
•我们设计了一种语义引导的损失函数,为无监督MMIF任务提供了精确的优化方向,通过强制融合图像中的语义一致性显著提高了表示质量。
•我们进行了广泛的定量和定性评估,证明了我们的方法在多个MMIF基准测试中达到了最先进的性能。
本文的其余部分组织如下:第2节回顾了与我们工作相关的方法。第3节介绍了我们方法的总体框架。第4节提供了我们的方法在六个数据集上的比较和消融实验结果。最后,第5节总结了本文。