基于边界感知和多角度建模的偏振图像中的目标跟踪

时间：2026年2月5日

来源：Knowledge-Based Systems

编辑推荐：

目标跟踪在RGB基础上面临复杂场景挑战，本研究提出PMTT框架和POL数据集。POL是首个大规模偏振视觉数据集，包含300个实拍视频，支持RGB-偏振双模态分析。PMTT采用跨模态Transformer，结合DFP模块提取边界和视角特征，以及SCA机制增强关键特征识别，在低光、遮挡和高速场景中跟踪精度提升23.7%，优于传统RGB-T和RGB-E方法。

王巧辉|史凡|王绵照|耿新波|赵萌

天津工业大学计算机科学与工程学院，基于学习的智能系统工程研究中心（教育部），天津，300384，中国

摘要

目标跟踪是计算机视觉中的一个基本任务，其应用范围从监控到自动驾驶。尽管基于RGB的跟踪方法通过利用颜色和纹理特征取得了显著进展，但在低光照、遮挡和快速运动等挑战性条件下往往表现不佳。偏振成像技术能够编码表面属性、材料特性和几何结构，作为一种补充模式具有独特优势。然而，由于缺乏大规模数据集和专为偏振特性设计的专用算法，其潜力尚未得到充分探索。为了解决这一差距，我们引入了POL，这是第一个用于偏振视觉的大规模基准数据集，能够在多种条件下进行全面评估。基于该数据集，我们提出了PMTT，一个跨模态Transformer框架，整合了偏振和RGB数据。详细特征提示器（DFP）模块从偏振图像中提取边界和多角度特征，而空间-通道注意力（SCA）机制增强了复杂环境中的特征识别能力。大量实验证实了PMTT的优越性能和鲁棒性，突显了偏振成像在动态目标跟踪中的变革潜力。

引言

视觉目标跟踪是计算机视觉中的一个基本任务，它使得监控和自动驾驶等应用成为可能。尽管基于RGB的跟踪器通过利用颜色和纹理特征取得了显著进展[1]，[2]，但在低光照、快速运动和杂乱背景等挑战性条件下常常表现不佳。为了克服这些限制，整合额外的传感器模态可以提供互补信息，并在多种环境中提高鲁棒性。

然而，每种现有模态都有其固有的局限性。例如，红外成像在低对比度或环境温度场景中表现不佳，且缺乏区分相似物体的细粒度纹理细节[3]，[4]，[5]。深度传感器虽然在遮挡情况下有效，但容易受到噪声、低分辨率和反射表面的伪影影响[6]，[7]，[8]。激光雷达提供了详细的结构数据，但在雨天或雾天等恶劣天气条件下准确性会下降[9]，[10]。这些局限性凸显了对更可靠替代方案的需求。偏振成像作为一种有前景但尚未充分探索的模态应运而生。通过捕捉光的偏振状态，它可以清晰地区分物体轮廓和细微细节[11]，[12]。与受噪声和反射伪影影响的深度传感器不同，偏振成像在低对比度或温度变化的环境中表现更好[13]，[14]。此外，在恶劣天气条件下，它的性能也优于激光雷达，因为它不依赖于激光束的传播和反射。

虽然偏振成像具有显著优势，但在目标跟踪中的应用面临两个主要挑战。首先，缺乏公开可用的偏振数据集阻碍了进展。偏振成像提供了丰富的多维数据，包括偏振度（DoP）、偏振角（AoP）和相位信息。然而，从这些偏振信息中提取有意义的特征以用于跟踪任务仍然很困难。此外，单独的偏振数据不足以实现有效跟踪。虽然偏振图像可以提供有关材料特性和物体轮廓的宝贵信息，但它们缺乏RGB图像中用于准确识别和跟踪的颜色和纹理信息。目前，偏振数据集较为稀少，主要集中在静态物体（如人体姿态估计）[15]上，且没有为具有连续帧的动态场景设计的数据集。第二个挑战是将偏振数据与RGB图像集成。大多数现有方法主要关注基于RGB的特征[16]，[17]，[18]，尽管有一些尝试将其他模态纳入其中，但通常将这些模态视为次要输入，而没有充分利用它们的潜力[19]，[20]。偏振成像提供了RGB之外的独特信息，但现有算法并未针对偏振特性进行优化。因此，偏振数据的互补优势在很大程度上未被利用，导致其进展相对较慢。

为了解决这些挑战，我们引入了POL数据集，这是一个整合了偏振和RGB模态的大规模基准数据集。该数据集涵盖了多种真实世界场景，并附有全面的注释，为基于偏振特性的跟踪训练和评估提供了坚实的基础。基于POL数据集，我们提出了一种新颖的基线跟踪器，该跟踪器采用跨模态转换模块，利用RGB和偏振数据的互补信息来实现更有效的特征整合。具体来说，我们冻结了一个预训练的基模型，并引入了一个细节提取模块，用于从偏振特定维度捕获边界和多角度特征。该模型采用密集连接的可逆基本单元构建，确保输入特征和输出特征之间的一一对应关系，保留信息并增强模态互补性。此外，我们引入了空间-通道注意力（SCA）机制，通过空间注意力突出物体区域特征，并通过通道注意力强调关键特征通道。这种复合注意力机制使得在复杂背景或不规则物体形状下更准确地识别和增强关键特征。在POL数据集上的实验证明了我们框架PMTT的有效性。PMTT只需少量参数即可学习，其性能优于现有的多模态跟踪方法。我们的贡献总结如下：

1.
我们引入了第一个用于单目标跟踪的大规模偏振流基准数据集，包含300个真实世界视频。
2.
我们提出了一种基于跨模态Transformer模块的简单而有效的基线跟踪器，该模块利用RGB和偏振模态的互补信息。
3.
我们创建了一个详细特征提示器（DFP）模块，从偏振图像中提取边界和多角度特征，以及一个SCA-MultiFusion模块来增强关键特征识别。这些创新改进了特征整合和跟踪精度，在POL数据集上实现了最先进的性能。

部分片段

偏振形式主义

传统成像仅捕获强度信息，忽略了更丰富的维度，从而促进了偏振成像的发展。这种新型光电成像技术大致可以分为四种类型：时间分割、幅度分割、孔径分割和焦平面分割（DoFP）[21]，[22]，[23]。其中，DoFP偏振成像在红外应用中最先进，能够同时在可见光到红外波段进行检测

协议

在收集POL数据集时，我们遵循了以下原则以确保其全面性和实用性：

1). 多样性和真实性：为了模拟真实世界的复杂性，POL数据集包含了来自不同环境和条件的视频，如不同的天气、照明和场景。 2). 双模态：通过提供配对的RGB和偏振流，POL实现了单模态和跨模态跟踪方法的统一评估和直接比较。 3). 高质量

概述

偏振成像编码了独特的表面和材料属性，如光振荡方向和偏振度，这些属性在其他数据中不存在。这些属性需要一种融合策略，能够在保留偏振特定方向信息的同时捕捉高频空间细节。为了满足这一需求，提出的偏振模态Transformer跟踪（PMTT）框架整合了偏振和RGB数据，如图6所示。

数据集和评估指标

为了评估我们的跟踪器，我们在POL数据集上进行了实验。偏振信息的优势在于它能够提供有关物体表面粗糙度、反射角度和材料属性的额外细节。将偏振信息整合到跟踪领域中可以提高复杂场景下的物体识别和跟踪性能。鉴于RGB-T(LasHeR) [40]和RGB-E (VisEvent) [41]数据集在多模态跟踪任务中的广泛使用和验证，我们