CMNet：跨模态特征融合与多尺度特征感知注意力网络在RGB-T语义分割中的应用

时间：2026年5月10日

来源：Digital Signal Processing

编辑推荐：

张冰|李振龙|孙福明|赵小兰|张易然北京工业大学城市交通学院，中国北京100124 摘要交通场景语义分割对于自动驾驶中的环境感知至关重要。近年来，RGB-热成像（RGB-T）语义分割因其能够在具有挑战性的条件下提供互补的视觉线索而受到越来越多的关注。然而，许多现有方法未能

张冰|李振龙|孙福明|赵小兰|张易然

北京工业大学城市交通学院，中国北京100124

摘要

交通场景语义分割对于自动驾驶中的环境感知至关重要。近年来，RGB-热成像（RGB-T）语义分割因其能够在具有挑战性的条件下提供互补的视觉线索而受到越来越多的关注。然而，许多现有方法未能充分利用热红外（TIR）图像中的丰富空间和语义信息。此外，它们通常对RGB和TIR特征采用相同的融合策略，这限制了跨模态表示的互补性并降低了分割精度。为了解决这些问题，我们提出了CMNet，一种用于RGB-T交通场景语义分割的跨模态特征融合和多尺度感知注意力网络。具体来说，引入了一种非对称的跨模态特征聚合器来捕获不同模态之间的异构信息，并增强特征互补性。此外，还设计了一个多尺度特征感知注意力模块，以关注TIR图像中的显著区域并提取其丰富的语义信息。为了进一步提高精度和训练效率，我们开发了一种多损失混合监督策略，同时约束语义和边缘信息。在三个具有挑战性的基准测试上的广泛实验表明，CMNet取得了有竞争力的性能，在MFNet数据集上达到了76.9%的mAcc和56.8%的mIoU。这些结果突显了CMNet在提高自动驾驶感知精度方面的有效性。源代码和模型可在以下链接获取：https://github.com/BingY998/CMNet

引言

在复杂的交通场景中，自动驾驶车辆需要随时做出正确的判断和决策，因此全面感知和理解周围的交通环境非常重要。这通常依赖于稳定且高效的语义分割方法。作为自动驾驶感知中的一个重要研究领域，语义分割的主要目标是将图像中的每个像素分配到相应的语义类别，即分割交通场景中的元素，包括道路、标志和非机动车，为自动驾驶的感知和决策奠定基础。语义分割是一项密集预测任务，不仅应用于自动驾驶[1]、[2]，还应用于医学图像分割和分析[3]、机器人导航和感知[4]以及其他多个领域。

尽管基于深度学习的语义分割[7]、[8]、[9]取得了显著进展，但大多数现有方法仍然依赖于单模态的RGB图像。在低光照、夜间场景或强烈曝光等具有挑战性的条件下，它们的性能会显著下降，从而影响自动驾驶车辆的感知能力。为了克服这些限制，人们探索了多模态方法[10]、[11]、[12]，特别是将RGB相机与TIR相机结合使用。RGB图像在良好的光照条件下提供了丰富的纹理和结构信息，而TIR图像对光照变化具有鲁棒性，能够在恶劣条件下有效突出行人和车辆（如图1所示）。然而，RGB和TIR模态的独特特征也为特征对齐和融合带来了新的挑战。因此，有效的跨模态特征集成和充分利用TIR的特定属性仍然是RGB-T语义分割中的关键问题。

一些RGB-T语义分割网络[13]、[14]通过特征融合提高了性能。然而，大多数采用对称融合策略，将RGB和TIR特征视为相同，这限制了它们利用模态特定特征和多尺度上下文线索的能力。其他工作[15]、[16]引入了注意力机制来捕获上下文信息，但仍未充分利用TIR图像中的独特空间和语义信息。因此，它们往往会产生不精确的对象边界和次优的定位结果。

为了解决现有RGB-T语义分割方法在复杂交通环境中的局限性，我们提出了CMNet，这是一种新颖的RGB-T语义分割框架，旨在充分利用RGB和TIR模态特征之间的互补性，并通过非对称的跨模态建模范式实现细粒度和鲁棒的分割性能。与大多数通过对称融合策略或通用基于注意力的特征细化方法平等对待两种模态的方法不同，CMNet明确区分了两种模态的物理和语义特性：RGB分支主要关注捕获细粒度的纹理信息，而TIR分支提供语义和显著性先验来引导跨模态特征交互。具体而言，我们首先设计了一种非对称的跨模态特征聚合器（CMFA）来自适应地融合异构特征，这不仅减少了信息损失，还增强了模态间的互补性。此外，考虑到TIR图像的纹理较弱但语义特性较强的特点，与传统基于通道或空间的注意力策略相比，我们提出了多尺度特征感知注意力（MFPA）模块。通过同时利用定向池化和空间注意力，MFPA有效地突出了显著区域并捕获了不同层之间的精确位置信息。此外，我们引入了跨模态语义细化模块（CSRM）来加强模态之间的语义交互。CSRM和MFPA模块相辅相成，实现了从像素级细节到区域级的层次化语义增强。最后，我们设计了一种多损失混合监督策略（MHSS），同时监督语义和边缘预测，加速了收敛并提高了整体精度。这些组件共同增强了RGB-T语义分割在复杂交通环境中的鲁棒性和精确度。

我们方法的主要贡献总结如下：

•
我们徹底研究了多模态特征之间的区别，并提出了一种结合跨模态特征融合和多尺度感知注意力的RGB-T交通场景分割框架。在具有挑战性的基准测试上的广泛实验表明，CMNet在语义分割任务中取得了有竞争力的性能。
•
我们设计了一种非对称的跨模态特征聚合器，有效融合了异构的RGB和TIR特征，增强了模态间的互补性，并在复杂环境中介断了分割性能。此外，我们为TIR分支引入了一个多尺度特征感知注意力模块，该模块突出了显著区域，捕获了丰富的语义线索，并模拟了长距离的空间依赖性。
•
我们开发了一种多损失混合监督策略，同时优化了语义和边缘表示。语义监督利用了TIR图像的语义丰富性，而边缘监督通过指导低级特征学习来提高边界精度，从而进一步提高了分割精度。

章节摘录

RGB语义分割

语义分割已成为自动驾驶中环境感知系统的重要组成部分，使精确的场景理解成为可能，并显著推动了交通场景分析的发展。随着深度学习的广泛应用，Long等人[17]率先开发了全卷积神经网络（FCNN），开启了语义分割任务的新篇章。SegNet[18]引入了编码器-解码器结构，该方法用于...

框架

所提出的RGB-T语义分割框架采用了双分支ResNet[37]，分别从RGB和TIR图像中提取特征表示，如图2所示。两个分支采用相同的架构并共享网络参数，从而降低了模型复杂性并提高了特征学习的稳定性。RGB分支的特征提取阶段表示为R_n（n∈1, 2, 3, 4, 5），TIR分支的特征提取阶段表示为T_n（n∈1, 2, 3, 4, 5）。MFPA增强了...

实验细节

为了保持实验的公平性，所有模型训练和测试都在相同的硬件和软件配置下进行，使用的是Ubuntu 20.04 Linux服务器。服务器配置了具有24G视频内存容量的4090 GPU，所有源代码都依赖于PyTorch深度学习框架。在我们的实验中，我们采用了颜色抖动和随机水平翻转作为数据增强技术。对于训练，使用Ranger作为优化器...

结论

在这项工作中，我们提出了CMNet，这是一种新颖的RGB-T语义分割网络，它通过非对称的跨模态特征聚合器明确地解决了模态差异问题，实现了RGB和TIR特征的独特而互补的提取。利用TIR图像在低光照和恶劣条件下的鲁棒性，我们进一步引入了多尺度特征感知注意力模块来捕获更丰富的语义线索，并实现感兴趣区域的精确定位。