SSTrack：一种结合尺度感知的时间提示机制与时空先验Transformer的视觉目标跟踪方法

时间：2026年1月22日

来源：Knowledge-Based Systems

编辑推荐：

视觉跟踪算法在利用Transformer全局建模能力方面取得进展，但仍存在忽视时序信息和尺度变化的缺陷，导致遮挡和形变场景跟踪失败。多数方法依赖输入图像，缺乏目标相关先验知识。本文提出SSTrack，通过scale-aware temporal encoder动态传递多尺度时序提示，结合spatio-temporal prior transformer注入时空先验，有效解决目标尺度变化和干扰问题，在七项基准数据集上验证性能优越。

马苏刚|万珍|胡斌|张金玉|侯志强|赵向模

摘要

现有的视觉跟踪算法通过利用Transformer强大的全局建模能力取得了令人印象深刻的进展。然而，这些方法通常侧重于设计复杂的网络模型，同时忽略了时间信息和尺度变化。这些限制使得它们容易受到目标遮挡和变形导致的跟踪失败。此外，大多数跟踪器采用基于ViT的注意力机制。这些跟踪器完全依赖于输入图像，缺乏关于目标的任务相关先验知识。为了解决这些问题，本文提出了STrack，这是一种新颖的视觉跟踪算法，它集成了尺度感知的时间提示和时空先验Transformer。具体来说，首先设计了一种尺度感知的时间信息传播机制，该机制允许跟踪器通过跨连续帧传播多尺度时间提示来学习目标在前后帧之间的尺度变化。此外，我们引入了一个时空先验模块，为跟踪器提供目标的时空先验知识，并将时空先验模块与自注意力模块结合在一起。在包括LaSOT、TrackingNet和GOT-10k在内的七个基准数据集上的广泛实验表明，STrack具有优越的跟踪性能。代码和预训练模型将在这里提供。

引言

视觉对象跟踪是计算机视觉领域中的一个具有挑战性的任务，其目标是在给定第一帧中目标的初始状态的情况下，在后续视频帧中定位目标。视觉跟踪在自动驾驶[1]、视频监控[2]和智能安全[3]等领域有广泛的应用。尽管近年来研究人员做出了显著的努力，视觉跟踪仍然面临目标遮挡、目标变形和背景干扰等挑战。因此，设计高性能的跟踪器仍然需要持续的探索。

近年来，随着Vision Transformer[4]的出现，提出了许多基于ViT的高性能跟踪器[5]、[6]、[7]、[8]、[9]。当前主流的基于ViT的跟踪器将特征提取和特征融合阶段合并到一个Transformer中。这些算法通常可以分为两类：固定模板跟踪器和动态模板跟踪器。固定模板跟踪器，如OSTrack[5]和SimTrack[6]，通过与初始模板图像和搜索区域图像交互来预测搜索区域中的目标位置。然而，由于缺乏捕捉目标外观变化的时间信息，它们在复杂场景中可能会失败，例如面对类似物体的干扰时。为了解决这个问题，研究人员通过引入动态模板使跟踪器能够学习丰富的时间信息并感知外观变化，如UTrack[8]和ProContEXT[9]所示。尽管这些方法取得了有希望的结果，但使用动态模板需要复杂的模板更新机制，例如选择适当的更新间隔和阈值，这也带来了显著的计算复杂性。为了解决动态模板带来的挑战，EVPTrack[10]引入了一组时间提示来在连续帧之间传播时间信息，并提出了一种多尺度提示来捕捉模板图像的多尺度信息。然而，目标在不同视频帧中的状态（尺度和位置）会发生变化，而EVPTrack提出的多尺度提示是从静态模板生成的，无法适应目标的运动。这导致在连续帧之间存在较大尺度变化时跟踪失败。此外，多尺度提示引入了过多的提示信息，导致计算复杂性非常高。鉴于此，本文提出了一种尺度感知的时间编码器，使用少量的提示在连续帧之间传播目标尺度变化的时间信息。

此外，大多数基于ViT的跟踪器[7]、[11]采用标准的自注意力机制，其中图像被输入到网络中，从浅层到深层逐步提取更高层次的特征。这意味着跟踪器的关注点仅限于输入，缺乏对跟踪目标的先验知识[12]。基于人类视觉系统的许多研究表明[13]，人类视觉感知不仅依赖于输入图像，还依赖于与任务相关的先验知识，不同的先验知识会导致不同的感知。换句话说，对于不同的任务，模型可能会关注图像中的不同对象。Transformer中的注意力完全依赖于输入[14]，这导致图像中的所有对象具有相同的权重，使得难以感知与任务相关的对象。因此，TDTrack[13]、TGTrack[15]和ReFocus[14]受到AbSViT[16]中的自上而下的空间先验注意力的启发，在特征提取过程中应用自上而下的空间先验注意力来进行对象跟踪。然而，这些算法忽略了不同视频帧之间的时间先验知识。由于对象跟踪是一个视频级别的预测任务，因此跨视频帧的时间先验信息也非常重要。

基于上述分析，本文提出了一种基于Transformer的新跟踪算法，称为STrack，它在EVPTrack的基础上进行了改进。STrack不使用EVPTrack提出的多尺度提示生成器和大量多尺度提示，因为EVPTrack的多尺度提示无法在帧之间传递多尺度信息，并引入了显著的计算复杂性。相反，STrack生成多尺度时间提示令牌，通过提出的尺度感知时间编码器在帧之间传递目标的多尺度信息。此外，STrack引入了一个基于EVPTrack的时空先验生成模块，为跟踪器提供以目标为导向的时空先验知识。总体而言，STrack通过在视频的连续帧之间传递多尺度时间提示，使模型能够学习目标尺度变化，并为网络提供以目标为导向的时空先验知识，以区分跟踪目标和干扰对象，最终实现稳健的跟踪。如图1所示，STrack在LaSOT[17]和GOT-10k[18]数据集上取得了出色的跟踪性能。本文的主要贡献可以总结如下：

•

提出了一种新颖的尺度感知时间信息传播机制。时间提示令牌与模板令牌和搜索区域令牌一起被输入到尺度感知时间编码器中，以学习目标的多尺度特征。时间提示令牌在连续视频帧之间传播时间信息，使跟踪器能够捕捉视频序列中目标的外观变化。

•

提出了一种具有时空先验指导的Transformer编码器。所提出的时间提示增强网络在多尺度时间提示中突出目标特征。它生成了一组时空先验知识，通过设计的自适应时空重新加权网络和时空先验传播模块，指导传统的Transformer注意力机制关注跟踪目标。

•

广泛的实验结果表明，STrack在所有七个具有挑战性的基准跟踪数据集上都取得了出色的性能。

本文的其余部分组织如下：第二节回顾了与本研究相关的工作，包括时间信息、提示学习和先验引导的注意力。第三节描述了STrack跟踪器的整体框架及其组件的结构。第四节提供了所提出方法的详细实验验证。最后，在第五节中进行了总结。

章节片段

时间信息

仅依赖于初始模板的跟踪器[5]、[6]、[11]由于缺乏额外的时间信息，无法感知目标外观的变化，在目标遮挡和变形等复杂场景中的表现较差。为了解决这一挑战，研究人员开发了各种方法来利用时间信息并提高跟踪器的性能[8]、[10]、[19]、[20]、[21]、[22]。TATrack[19]引入了之前的搜索区域图像作为时空上下文

整体框架

如图2所示，我们提出了STrack，它由分层补丁嵌入（HPE）、尺度感知时间编码器（SATE）、时空先验Transformer（STPT）和跟踪头组成。在图2中，多尺度时空提示令牌、模板令牌和搜索区域令牌的维度分别为

R^{P \times D}

、

R^{T \times D}

和

R^{S \times D}

，其中P、T和S分别是多尺度时空提示令牌、模板令牌和搜索区域令牌的长度。它们的长度为64，

实验

所提出的跟踪算法使用Python 3.8和Pytorch 2.2框架实现。模型在两个NVIDIA TITAN V GPU上进行了训练。在推理阶段，模型的推理速度在单个NVIDIA TITAN V GPU上进行了测试。

结论

本文提出了一种基于尺度感知时间提示和时空先验Transformer的视觉对象跟踪算法。通过利用尺度感知时间编码器在视频序列中传播时间提示，模型捕捉到了目标外观的变化。同时，Transformer在时空先验的引导下，为模型提供了任务特定的先验知识，使其能够更有效地关注跟踪目标。在七个数据集上的广泛实验表明，

未引用的参考文献

[43]、[44]、[45]、[46]、[47]、[48]、[49]、[50]、[51]、[52]、[53]、[54]、[55]、[56]、[57]、[58]。

CRediT作者贡献声明

马苏刚：写作 – 审稿与编辑，写作 – 原稿撰写，监督，项目管理，方法论，资金获取。万珍：写作 – 审稿与编辑，写作 – 原稿撰写，可视化，方法论。胡斌：写作 – 审稿与编辑，监督，资源。张金玉：写作 – 审稿与编辑。侯志强：写作 – 审稿与编辑，监督，资源。赵向模：写作 – 审稿与编辑，监督。