基于混合注意力CNN-Mamba的多模态遥感图像语义分割方法研究

时间:2025年12月16日
来源:IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing

编辑推荐:

本研究针对多模态遥感图像语义分割中存在的模态异构性导致特征互补信息利用不足、语义理解偏差等问题,提出了一种混合注意力驱动的CNN-Mamba多模态融合网络(HACMNet)。通过设计渐进式跨模态特征交互模块(PCMFI)和自适应双流Mamba跨模态融合模块(ADMCF),有效整合光学图像纹理信息与数字表面模型(DSM)高程信息,显著提升了复杂地物类别的分割精度与鲁棒性。在ISPRS Vaihingen、Potsdam和SMARS数据集上的实验表明,该方法在mIoU、OA和mF1等指标上均优于现有主流方法。

广告
   X   

随着高分辨率遥感技术的飞速发展,多模态数据为地球观测应用带来了前所未有的机遇。然而,如何有效融合光学图像与数字表面模型(DSM)等异构模态数据,实现精准的语义分割,仍是当前遥感领域面临的重大挑战。传统方法往往因模态间数据分布差异大、特征对齐困难等问题,导致互补信息利用不足,尤其在复杂场景下容易出现边界模糊、小目标漏检等问题。
在这一背景下,由北京信息科技大学等单位的研究团队在《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》上发表了一项创新性研究,提出了一种名为HACMNet的混合注意力驱动CNN-Mamba多模态融合网络。该研究旨在通过深度融合光学图像的纹理语义信息与DSM的结构高程信息,突破现有融合方法的局限性。
研究团队创新性地设计了渐进式跨模态特征交互机制(PCMFI),通过多模态协同空间-通道注意力(MS-SCA)模块动态引导特征交互,逐步融合浅层边缘信息与深层语义表征。在深层特征融合阶段,提出了自适应双流Mamba跨模态融合模块(ADMCF),通过交替堆叠的双流Mamba(DM)模块和动态加权Mamba融合(DWMF)模块,实现全局语义与空间结构信息的高效互补。最后,通过全局-局部特征解码器整合多尺度信息,在保持目标结构完整性的同时增强边缘细节表征。
关键技术方法包括:基于ResNet50的双分支编码器提取多层次特征;MS-SCA模块通过方向感知多尺度空间注意力与通道自注意力增强特征判别力;ADMCF模块通过状态空间模型(SSM)捕获长程依赖关系;以及融合交叉熵与Dice损失的优化目标函数。
研究结果验证了HACMNet的卓越性能。在ISPRS Vaihingen数据集上,该方法在建筑物(94.32%)、树木(83.93%)、低植被(68.68%)等类别上取得最高IoU,mIoU达到82.04%,较最优对比方法提升1.67%。在Potsdam数据集上,mIoU达到84.02%,特别是在车辆(89.54%)等小目标分割上表现突出。在更具挑战的SMARS数据集上,该方法在建筑物(96.70%)、道路(94.95%)等类别上实现突破性进展,mIoU达到93.90%。
通过详尽的消融实验,研究证实了PCMFI与ADMCF模块的协同增效作用。特征热力图可视化显示,该网络能够逐步从粗粒度全局感知过渡到细粒度局部目标捕获,在复杂场景下保持优异的边界清晰度和语义一致性。双模态输入相比单光学图像在各项指标上均有显著提升,证明了DSM高程信息对分割性能的重要贡献。
该研究的核心创新在于首次将状态空间模型与CNN架构相结合用于多模态遥感分割,通过层次化特征交互机制解决了模态异构性带来的融合难题。所提出的混合注意力机制和自适应融合策略,为多源遥感数据分析提供了新的技术路径。未来研究方向包括提升模型在极端噪声条件下的鲁棒性,以及拓展到跨传感器域自适应等更广泛的应用场景。
这项研究不仅推动了多模态遥感语义分割的技术前沿,也为城市规划、环境监测、灾害评估等实际应用提供了更精准、可靠的解决方案,展现出重要的理论价值与实践意义。

生物通微信公众号
微信
新浪微博


生物通 版权所有