视觉目标跟踪是计算机视觉中的一个基本任务,它使得监控和自动驾驶等应用成为可能。尽管基于RGB的跟踪器通过利用颜色和纹理特征取得了显著进展[1],[2],但在低光照、快速运动和杂乱背景等挑战性条件下常常表现不佳。为了克服这些限制,整合额外的传感器模态可以提供互补信息,并在多种环境中提高鲁棒性。
然而,每种现有模态都有其固有的局限性。例如,红外成像在低对比度或环境温度场景中表现不佳,且缺乏区分相似物体的细粒度纹理细节[3],[4],[5]。深度传感器虽然在遮挡情况下有效,但容易受到噪声、低分辨率和反射表面的伪影影响[6],[7],[8]。激光雷达提供了详细的结构数据,但在雨天或雾天等恶劣天气条件下准确性会下降[9],[10]。这些局限性凸显了对更可靠替代方案的需求。偏振成像作为一种有前景但尚未充分探索的模态应运而生。通过捕捉光的偏振状态,它可以清晰地区分物体轮廓和细微细节[11],[12]。与受噪声和反射伪影影响的深度传感器不同,偏振成像在低对比度或温度变化的环境中表现更好[13],[14]。此外,在恶劣天气条件下,它的性能也优于激光雷达,因为它不依赖于激光束的传播和反射。
虽然偏振成像具有显著优势,但在目标跟踪中的应用面临两个主要挑战。首先,缺乏公开可用的偏振数据集阻碍了进展。偏振成像提供了丰富的多维数据,包括偏振度(DoP)、偏振角(AoP)和相位信息。然而,从这些偏振信息中提取有意义的特征以用于跟踪任务仍然很困难。此外,单独的偏振数据不足以实现有效跟踪。虽然偏振图像可以提供有关材料特性和物体轮廓的宝贵信息,但它们缺乏RGB图像中用于准确识别和跟踪的颜色和纹理信息。目前,偏振数据集较为稀少,主要集中在静态物体(如人体姿态估计)[15]上,且没有为具有连续帧的动态场景设计的数据集。第二个挑战是将偏振数据与RGB图像集成。大多数现有方法主要关注基于RGB的特征[16],[17],[18],尽管有一些尝试将其他模态纳入其中,但通常将这些模态视为次要输入,而没有充分利用它们的潜力[19],[20]。偏振成像提供了RGB之外的独特信息,但现有算法并未针对偏振特性进行优化。因此,偏振数据的互补优势在很大程度上未被利用,导致其进展相对较慢。
为了解决这些挑战,我们引入了POL数据集,这是一个整合了偏振和RGB模态的大规模基准数据集。该数据集涵盖了多种真实世界场景,并附有全面的注释,为基于偏振特性的跟踪训练和评估提供了坚实的基础。基于POL数据集,我们提出了一种新颖的基线跟踪器,该跟踪器采用跨模态转换模块,利用RGB和偏振数据的互补信息来实现更有效的特征整合。具体来说,我们冻结了一个预训练的基模型,并引入了一个细节提取模块,用于从偏振特定维度捕获边界和多角度特征。该模型采用密集连接的可逆基本单元构建,确保输入特征和输出特征之间的一一对应关系,保留信息并增强模态互补性。此外,我们引入了空间-通道注意力(SCA)机制,通过空间注意力突出物体区域特征,并通过通道注意力强调关键特征通道。这种复合注意力机制使得在复杂背景或不规则物体形状下更准确地识别和增强关键特征。在POL数据集上的实验证明了我们框架PMTT的有效性。PMTT只需少量参数即可学习,其性能优于现有的多模态跟踪方法。我们的贡献总结如下:
- 1.
我们引入了第一个用于单目标跟踪的大规模偏振流基准数据集,包含300个真实世界视频。
- 2.
我们提出了一种基于跨模态Transformer模块的简单而有效的基线跟踪器,该模块利用RGB和偏振模态的互补信息。
- 3.
我们创建了一个详细特征提示器(DFP)模块,从偏振图像中提取边界和多角度特征,以及一个SCA-MultiFusion模块来增强关键特征识别。这些创新改进了特征整合和跟踪精度,在POL数据集上实现了最先进的性能。