基于Mamba混合网络的多模态特征融合方法研究及其在红外-可见光与医学影像中的应用

时间:2025年5月27日
来源:Engineering Applications of Artificial Intelligence

编辑推荐:

为解决多模态图像融合(MMIF)中跨模态信息交互不足和局部特征丢失问题,研究人员提出基于Mamba的混合网络(MHNet),通过两阶段训练结合可逆神经网络(IB)和边缘增强模块,在红外-可见光(IVF)和医学影像融合(MIF)任务中实现36.2%-65.0%的指标提升,为临床诊断和计算机视觉提供通用化解决方案。

广告
   X   

在计算机视觉和医学影像领域,多模态图像融合(MMIF)技术正成为突破单模态成像局限的关键。红外与可见光图像融合(IVF)能同时保留热辐射特征和纹理细节,但现有Transformer方法对噪声敏感;医学影像融合(MIF)需整合CT的骨组织信息与MRI的软组织对比度,而传统CNN难以建模跨模态长程依赖。更棘手的是,当前方法多针对单一任务设计,缺乏通用性框架,且特征传输过程中的信息丢失严重制约融合质量。

湘江实验室的研究团队在《Engineering Applications of Artificial Intelligence》发表的研究中,创新性地将状态空间模型(Mamba)引入MMIF领域,构建了名为MHNet的混合网络。该模型通过两阶段训练策略:第一阶段用Mamba块和可逆神经网络(IB)分别提取模态特异性特征,第二阶段通过共享编码器实现跨模态交互。关键技术包括:1) 结合Mamba的长程建模优势与CNN的局部特征提取;2) 采用可逆神经网络模块实现无损特征传输;3) 引入卷积注意力模块(CBAM)增强关键区域表征;4) 设计边缘增强模块提升轮廓信息保留能力。实验覆盖6个数据集和9项指标验证有效性。

红外和可见光图像融合
在TNO和RoadScene数据集上,MHNet的平均梯度(AG)指标较次优方法提升36.2%-48.4%。可视化结果显示,融合图像同时保留了可见光的道路标线细节和红外图像的行人热辐射特征,显著提升自动驾驶夜视系统的目标检测准确率。

医学图像融合
针对哈佛医学院提供的CT-MRI配对数据,模型的空间频率(SF)指标最高提升65.0%。典型病例分析表明,融合结果既能清晰显示脑肿瘤的软组织边界(MRI特性),又可准确定位钙化灶(CT特性),为神经外科手术规划提供更全面的影像依据。

模型架构验证
消融实验证实:Mamba分支使长程特征建模速度提升3.8倍;可逆神经网络将特征传输损失降低62%;边缘增强模块使轮廓强度指标(CE)提高29.7%。这些模块协同作用解决了传统方法在跨模态信息交互中的瓶颈问题。

该研究突破性地实现了三大创新:1) 首次将Mamba的序列建模能力应用于MMIF任务,建立跨模态全局关联;2) 通过两阶段训练框架统一IVF和MIF的解决方案;3) 无损传输机制显著提升特征保真度。临床验证显示,融合图像使肝癌病灶检出率提升12.3%,军事夜视系统的目标识别准确率提高18.7%。未来工作将探索该框架在遥感影像融合和术中多模态导航中的应用潜力,为智能医疗和国防安全提供更强大的视觉感知工具。

生物通微信公众号
微信
新浪微博


生物通 版权所有