一种基于层次语义协作的网络，用于红外图像与可见光图像的融合

时间：2026年2月3日

来源：Engineering Applications of Artificial Intelligence

编辑推荐：

红外可见光图像融合中提出分层语义协作网络HSCNet，通过多级跨模态特征共享和双向语义优化机制，结合分层语义Transformer实现全局结构与局部细节的协同建模，有效提升融合图像的语义一致性和下游任务兼容性，实验验证其优于现有11种SOTA方法。

作者：李娟艳、聂仁灿、曹金德、左江、李晓丽

单位：云南大学信息科学与工程学院，昆明 650500，中国

摘要

为了解决图像融合与下游语义任务之间的固有差异，本研究提出了一种基于层次语义协作的网络（HSCNet）用于红外和可见光图像融合。该框架通过多层次特征共享策略，共同建模像素和语义域之间的跨模态特征，有效减少了像素级信息损失并增强了语义重建能力。一种语义驱动的反馈机制实现了融合分支和分割分支之间的双向优化，从而提高了融合图像的语义表达能力。此外，层次语义变换器（HST）将图像表示分解为全局结构和局部细节两部分，有助于特定任务的去噪和重建。在三个公开数据集上的广泛评估表明，HSCNet始终能够达到最先进（SOTA）的性能，在所有融合指标中排名第一。在下游应用中，该模型获得了最高的分割精度，平均交并比（mIoU）为79.48，并且在[0.5:0.95]范围内实现了平均精度（mAP）为0.559的卓越检测性能，优于现有方法。这些结果证实，HSCNet不仅产生了感知上更优秀的融合图像，还提高了它们在现实世界人工智能（AI）应用中的高级语义理解能力。

引言

红外图像和可见光图像由于成像机制的根本不同而具有各自的优势。红外成像捕捉物体发出的热辐射，具有很强的穿透力，能够在低光或复杂环境中检测到隐藏的目标，因此特别适用于夜间监控和安全侦察等场景。相比之下，可见光图像依赖于反射的自然光，在良好的光照条件下能够有效地再现颜色和细纹理细节，从而提供丰富的视觉语义（Karim等人，2024年）。然而，每种模态在独立应用时也存在固有的局限性。可见光图像容易受到光照变化、遮挡和目标显著性低的影响，而红外图像虽然擅长突出热目标，但往往缺乏详细的纹理和结构信息（Ma等人，2019年）。这些特定模态的缺陷限制了它们在具有挑战性的现实世界环境中的有效性。

红外和可见光图像融合（IVIF）旨在通过对齐空间上对应的异构信息来整合两种模态的互补优势（Ma等人，2019年）。由此产生的融合图像结合了突出的热目标和详细的纹理及语义，从而提高了感知质量，并在各种高级视觉任务中提升了性能，如目标检测（Zhang和Demiris，2023年）、语义分割、变化检测、目标跟踪和边缘提取。通过保留红外数据的显著特征，并用可见光图像的上下文细节对其进行丰富，融合能够更准确、更全面地理解复杂场景，优于任何单一模态。

语义分割（Long等人，2015年）作为计算机视觉中的一个基础和高级任务，旨在为图像中的每个像素分配一个分类标签（Liu等人，2018年）。与早期关注边缘或梯度等低级线索的方法不同，现代语义分割捕获了与人类感知更为一致的高密度、高分辨率的语义掩码。通过将属于同一对象的像素聚类，它有助于对图像内容进行高级理解，并已在复杂场景分析中得到广泛应用（Karim等人，2024年）。

现有的图像融合方法主要强调低级像素信息，如红外图像中的目标显著性和可见光图像中的纹理细节。然而，它们往往忽略了嵌入在场景中的高级语义内容（Liu等人，2024a）。尽管这些方法可以提供令人满意的视觉结果，并在标准融合指标上表现良好，但在对象检测或语义分割等下游任务中的有效性往往降低。为了弥补这一缺陷，一些最近的研究引入了结合下游任务（例如检测或分割）的级联框架，通过语义监督来指导融合过程。

语义引导的融合方法通常可以分为两类：语义驱动的融合架构和具有语义补偿机制的融合模型。代表性方法如SeAFusion（Tang等人，2022b）、TarDAL（Liu等人，2022a）和SuperFusion（Tang等人，2022a）采用顺序设计，首先生成融合图像，然后通过分割网络提取语义标签。这些标签随后用于通过强调与任务相关的区域来细化融合结果。虽然这样的设计能够实现语义增强，但其顺序性质削弱了融合与分割之间的耦合，导致跨模态语义交互有限，任务泛化能力不佳。

相比之下，像SegMiF（Liu等人，2023）和PSFusion（Tang等人，2023）这样的模型直接将语义先验嵌入到融合流程中，从而减少了集成过程中的语义退化。然而，这些方法通常会引入更高的计算成本，并可能牺牲细粒度纹理的保留，因为语义约束可能主导低级特征学习。此外，大多数现有的任务感知框架仍然是级联或松散集成的，缺乏融合阶段和分割阶段之间的实时语义反馈。

除了架构设计外，传统的图像级数据增强方法，包括旋转、翻转和随机裁剪，也常被采用来通过增加输入多样性来提高鲁棒性（Li等人，2020a）。更先进的增强策略，如Mixup（Zhang等人，2017）和CutMix（Yun等人，2019），通过在图像级别构建虚拟样本来进一步规范训练。虽然这些方法在一般的视觉学习任务中有效，但它们并没有明确保留跨异构模态的语义对应关系，限制了它们在红外-可见光图像融合中支持跨模态语义对齐的能力。

为了解决这些限制，我们提出了一种用于IVIF的新层次语义协作网络（HSCNet），具有联合语义分割功能。与顺序或级联流程不同，HSCNet建立了一种联合优化机制，实现了融合网络和分割网络之间的双向语义交互。在架构层面，“层次”一词反映了我们模型的多层次设计，其中语义指导逐步注入多个特征层。这种策略有效地加强了低级视觉线索和高级语义表示之间的协作，从而产生了纹理丰富、语义一致且具有任务泛化能力的融合结果。与图像级增强不同，我们的语义协作在特征-语义层面进行，明确地在表示学习过程中强制实现跨模态语义对齐，而不改变输入分布。此外，解码器中还加入了语义反馈优化模块，以强化融合输出中的语义完整性。

为了进一步提高重建质量，引入了层次语义变换器（HST）。在变换器层面，“层次”表示将图像表示分解为全局结构和局部细节两个层次，使得能够进行特定任务的去噪和精确建模，包括全局连贯性和细粒度纹理保真度。最后，设计了一种考虑对比度和显著性的损失函数来指导模型训练过程，确保融合图像的感知质量和结构连贯性得到提升。我们的主要创新点如下：

为了减轻融合任务与下游任务之间的特征差异，我们提出了一种基于语义协作的IVIF框架，能够在像素和语义层面共同建模跨模态特征。通过整合融合网络和分割网络，建立了一种语义引导机制，其中连续的反馈细化了融合图像的语义表示，增强了它们与下游视觉应用的兼容性。
我们提出了一种模态感知的合作交互模块（MCIB），以实现融合网络和分割网络之间的多层次跨模态特征共享。这种设计提高了语义一致性，并减少了传统方法中常见的像素损失和语义重建不良问题。
我们设计了一种层次语义变换器，将图像表示分解为全局结构层和局部细节层。这两个层次分别关注结构一致性和纹理保真度，有助于在融合和解码器中进行去噪和重建。
我们从像素级和语义级两个角度全面评估了融合性能。我们使用定性视觉比较、定量指标和下游任务（包括对象检测和语义分割）进行评估。结果表明，HSCNet在视觉保真度和语义保留方面优于现有的11种最先进方法。

CNN

早期的基于CNN的融合方法，如NestFuse（Li等人，2020b）、FusionDN（Xu等人，2020）、DDcGAN（Ma等人，2020）和RFN-Nest（Li等人，2021），以端到端的方式直接学习像素级融合规则。虽然这些方法能够有效捕获局部结构信息并实现高视觉质量，但它们往往难以保持长距离依赖性，并且在下游语义任务中难以泛化。CNN以其强大的层次特征提取能力而闻名