视觉对象跟踪是计算机视觉领域中的一个具有挑战性的任务,其目标是在给定第一帧中目标的初始状态的情况下,在后续视频帧中定位目标。视觉跟踪在自动驾驶[1]、视频监控[2]和智能安全[3]等领域有广泛的应用。尽管近年来研究人员做出了显著的努力,视觉跟踪仍然面临目标遮挡、目标变形和背景干扰等挑战。因此,设计高性能的跟踪器仍然需要持续的探索。
近年来,随着Vision Transformer[4]的出现,提出了许多基于ViT的高性能跟踪器[5]、[6]、[7]、[8]、[9]。当前主流的基于ViT的跟踪器将特征提取和特征融合阶段合并到一个Transformer中。这些算法通常可以分为两类:固定模板跟踪器和动态模板跟踪器。固定模板跟踪器,如OSTrack[5]和SimTrack[6],通过与初始模板图像和搜索区域图像交互来预测搜索区域中的目标位置。然而,由于缺乏捕捉目标外观变化的时间信息,它们在复杂场景中可能会失败,例如面对类似物体的干扰时。为了解决这个问题,研究人员通过引入动态模板使跟踪器能够学习丰富的时间信息并感知外观变化,如UTrack[8]和ProContEXT[9]所示。尽管这些方法取得了有希望的结果,但使用动态模板需要复杂的模板更新机制,例如选择适当的更新间隔和阈值,这也带来了显著的计算复杂性。为了解决动态模板带来的挑战,EVPTrack[10]引入了一组时间提示来在连续帧之间传播时间信息,并提出了一种多尺度提示来捕捉模板图像的多尺度信息。然而,目标在不同视频帧中的状态(尺度和位置)会发生变化,而EVPTrack提出的多尺度提示是从静态模板生成的,无法适应目标的运动。这导致在连续帧之间存在较大尺度变化时跟踪失败。此外,多尺度提示引入了过多的提示信息,导致计算复杂性非常高。鉴于此,本文提出了一种尺度感知的时间编码器,使用少量的提示在连续帧之间传播目标尺度变化的时间信息。
此外,大多数基于ViT的跟踪器[7]、[11]采用标准的自注意力机制,其中图像被输入到网络中,从浅层到深层逐步提取更高层次的特征。这意味着跟踪器的关注点仅限于输入,缺乏对跟踪目标的先验知识[12]。基于人类视觉系统的许多研究表明[13],人类视觉感知不仅依赖于输入图像,还依赖于与任务相关的先验知识,不同的先验知识会导致不同的感知。换句话说,对于不同的任务,模型可能会关注图像中的不同对象。Transformer中的注意力完全依赖于输入[14],这导致图像中的所有对象具有相同的权重,使得难以感知与任务相关的对象。因此,TDTrack[13]、TGTrack[15]和ReFocus[14]受到AbSViT[16]中的自上而下的空间先验注意力的启发,在特征提取过程中应用自上而下的空间先验注意力来进行对象跟踪。然而,这些算法忽略了不同视频帧之间的时间先验知识。由于对象跟踪是一个视频级别的预测任务,因此跨视频帧的时间先验信息也非常重要。
基于上述分析,本文提出了一种基于Transformer的新跟踪算法,称为STrack,它在EVPTrack的基础上进行了改进。STrack不使用EVPTrack提出的多尺度提示生成器和大量多尺度提示,因为EVPTrack的多尺度提示无法在帧之间传递多尺度信息,并引入了显著的计算复杂性。相反,STrack生成多尺度时间提示令牌,通过提出的尺度感知时间编码器在帧之间传递目标的多尺度信息。此外,STrack引入了一个基于EVPTrack的时空先验生成模块,为跟踪器提供以目标为导向的时空先验知识。总体而言,STrack通过在视频的连续帧之间传递多尺度时间提示,使模型能够学习目标尺度变化,并为网络提供以目标为导向的时空先验知识,以区分跟踪目标和干扰对象,最终实现稳健的跟踪。如图1所示,STrack在LaSOT[17]和GOT-10k[18]数据集上取得了出色的跟踪性能。本文的主要贡献可以总结如下:
•提出了一种新颖的尺度感知时间信息传播机制。时间提示令牌与模板令牌和搜索区域令牌一起被输入到尺度感知时间编码器中,以学习目标的多尺度特征。时间提示令牌在连续视频帧之间传播时间信息,使跟踪器能够捕捉视频序列中目标的外观变化。
•提出了一种具有时空先验指导的Transformer编码器。所提出的时间提示增强网络在多尺度时间提示中突出目标特征。它生成了一组时空先验知识,通过设计的自适应时空重新加权网络和时空先验传播模块,指导传统的Transformer注意力机制关注跟踪目标。
•广泛的实验结果表明,STrack在所有七个具有挑战性的基准跟踪数据集上都取得了出色的性能。
本文的其余部分组织如下:第二节回顾了与本研究相关的工作,包括时间信息、提示学习和先验引导的注意力。第三节描述了STrack跟踪器的整体框架及其组件的结构。第四节提供了所提出方法的详细实验验证。最后,在第五节中进行了总结。