基于RGB-热成像多模态融合的无人机检测网络

生物通首页 > 今日动态 > 正文

基于RGB-热成像多模态融合的无人机检测网络

时间：2026年2月2日

来源：Infrared Physics & Technology

编辑推荐：

多模态图像检测方法R2TNet提出监督渐进式模态对齐模块解决RGB-T图像配准难题，结合多维度相似性匹配与多尺度动态融合模块提升特征互补性，显著优于现有双模态检测方法，在复杂背景小目标检测中验证了高精度与强鲁棒性。

中国人民解放军国防科技大学电子科学学院，中国湖南省长沙市410073

摘要

随着无人机的迅速普及，其安全性问题逐渐成为研究的焦点。在红外目标检测任务中，由于目标尺寸小、背景复杂且对比度低，现有方法通常仅依赖单一模态的内部特征，缺乏与外部信息交互的能力，这限制了检测性能。为了解决这一问题，本文提出了一种新颖的多模态图像检测方法R2TNet，该方法可以直接处理错位的RGB-T图像，有效避免了传统手动配准的复杂性。为了实现高效的多模态对齐和融合，本文设计了一个基于监督的自下而上的多模态对齐模块，采用从粗到细的分层配准策略。这有效缓解了多模态图像中的模态不对齐问题，从而实现了RGB特征和红外特征之间的精确对齐。在此基础上，进一步采用了一个语义引导模块，利用高级语义信息优化跨模态特征融合，显著提高了目标检测的准确性和鲁棒性。同时，引入了一个多尺度门控动态融合模块，以实现多模态特征的细粒度融合，进一步增强了模型在复杂场景中的适应性。实验结果表明，所提出的R2TNet在包括Em、Sm、Fm和MAE在内的多个评估指标上显著优于现有的双模态检测方法，并在复杂背景和小目标检测任务中表现出更强的鲁棒性和泛化能力。此外，与单模态红外检测方法的比较结果进一步验证了所提出方法在跨模态融合检测中的优势。

引言

红外小目标检测在地面监控[1]、预警系统[2]和精确制导[3]等各种应用场景中发挥着重要作用。与传统目标检测任务相比，红外小目标检测面临重大挑战。由于目标尺寸小或位置偏远，目标在图像中只占据非常小的部分，在极端情况下可能只覆盖几个像素。此外，目标在图像中分布稀疏，目标数量有限且面积远小于背景，导致目标与背景的面积比严重失衡，大大增加了检测难度。此外，红外图像的背景非常复杂且多变，经常包含高频噪声、纹理干扰、虚假目标和低对比度区域。这些因素共同导致了红外小目标检测的挑战，包括目标尺寸小、数量少、分布稀疏、信噪比低以及目标与背景对比度弱。传统目标检测方法在这种环境下难以取得最佳性能。因此，开发能够有效抑制背景干扰、增强目标特征并具有强鲁棒性的检测算法已成为该领域的研究热点和挑战性任务。

近年来，深度学习在计算机视觉任务中取得了突破性进展，并被广泛应用于红外小目标检测。与传统方法相比，基于深度学习的检测模型利用端到端的学习框架，能够自动提取判别性特征，消除了对手动特征设计和先验模型的依赖，显著提高了适应性和泛化性能。然而，由于红外小目标的固有特性（如尺寸小、背景复杂、对比度低和缺乏纹理），有效特征的稀缺性仍然是精确检测的关键瓶颈。为了解决这一问题，现有研究通常采用跨层特征融合策略来增强目标表示。这种方法整合了不同层（如浅层空间细节和深层语义上下文）的特征信息，以实现信息互补，从而提高目标感知能力。例如，ACM网络[4]提出了一个非对称上下文调制融合模块，从上到下引入全局通道注意力，并从下到上利用点引导的通道注意力来促进浅层和深层特征之间的协同融合。ISNet[5]设计了一个双向注意力聚合模块，从低层特征中提取边缘和结构信息，并将其与高层语义特征融合，以增强目标的边界感知。ALCNet[6]引入了一个自下而上的注意力调制模块，有效地将浅层细节信息编码到高层语义表示中，同时使用层间特征融合机制进一步改进多尺度特征表达。MSHNet[7]基于U-Net架构，通过跳跃连接将编码器的浅层特征直接引入解码器的相应层，实现多尺度特征融合。IRSAM[8]利用粒度感知解码器和双向变换器机制融合多粒度特征，增强了模型对目标尺度和形状变化的适应性。

尽管上述方法通过多尺度、跨层和基于注意力的增强技术取得了性能提升，但它们本质上仅限于单一模态（红外图像）内的特征融合。这种融合主要发生在不同层或感受野之间，提取的特征具有强语义相关性和冗余性，难以提供新的判别维度。此外，这些方法缺乏与外部辅助信息交互的能力，这限制了它们在复杂背景、纹理弱的目标和多场景干扰下的性能。因此，它们难以实现动态适应和强大的判别能力。

为了克服上述限制，可见光-红外（RGB-IR）多模态检测因其能够利用两种模态的互补性而受到越来越多的关注[9]、[10]、[11]。可见光图像包含丰富的纹理、边缘和结构信息，提供了精确的空间定位和外观细节，而红外图像在低光照或复杂照明条件下仍能稳定地表示目标的热辐射特性。这两种模态的互补融合有效弥补了单一模态中特征的丢失和模糊性，从而增强了检测的鲁棒性和泛化能力。尽管RGB-IR融合在红外目标检测中显示出巨大潜力，但目前的方法仍面临两个主要核心挑战[12]、[13]，这些挑战严重限制了检测性能的进一步提升：首先，模态不对齐问题。现有方法通常假设RGB和红外图像可以准确地进行几何对齐，然后在像素或特征层面直接融合。然而，在实际应用中，由于传感器视角、分辨率和响应范围的差异，即使经过配准，图像对也往往只能实现“弱对齐”。在具有小目标的复杂场景中，这容易导致跨模态不匹配，影响融合和识别结果。其次，融合不精确的问题。不同模态表达目标信息的方式存在显著差异。例如，在夜间低光照条件下，RGB图像提供的有用信息很少或没有，而红外图像可以突出目标的热辐射特征。如果融合策略未能自适应地区分每种模态的重要性，而是使用简单的平均或固定权重组合，可能会导致“信息污染”，即低质量模态干扰高质量模态，从而削弱整体检测性能。

为了解决上述问题，本文提出了一种新颖的特征对齐和感知互补融合网络R2TNet。从跨模态协作建模的角度出发，该方法结合了特征对齐和融合优化，以实现更准确的目标定位和更强大的跨模态融合。具体来说，本文关注两个主要方面：首先，在特征对齐阶段，设计了一个基于监督的渐进式多模态对齐模块，通过构建跨模态共享子空间来提取模态不变特征，消除模态间隙并逐步纠正特征偏移，从而实现从深层到浅层的级联配准。其次，在融合阶段，引入了一个多维相似性匹配模块，利用高阶语义指导来计算跨模态相似性，辅助后续融合。此外，设计了一个多尺度门控动态融合模块，通过动态机制捕获多尺度上下文信息并自适应选择语义重要性，从而实现鲁棒且结构精细的跨模态特征融合。

总结来说，本文的贡献有三个方面：

1.
针对红外无人机目标检测任务，提出了一种新颖的RGB-IR融合检测网络R2TNet。该方法实现了自适应的特征注册和对齐，从根本上消除了对手动注册操作的依赖。
2.
构建了一个自下而上的级联多模态对齐机制，逐步减少RGB和T模态特征之间的空间差异。此外，引入了辅助监督信号，有效缓解了注册过程中的特征溢出问题。
3.
采用了一个多维相似性匹配模块，在深层语义空间内计算跨模态相似性，从而指导更精确的特征融合。同时，设计了一个多尺度门控动态融合模块，通过动态机制自适应选择关键语义特征，充分利用了两种模态的互补优势，显著提高了检测准确性和鲁棒性。