多目标跟踪(MOT)是视频分析领域的一项关键任务,其主要目标是推断和预测连续图像序列中对象的运动轨迹。近年来,Transformer方法在各个领域的成功已得到充分证明,基于Transformer的端到端MOT方法(如MOTR [2]和MOTIP [3])最近被引入到MOT领域。这些方法相比广泛使用的基于检测的跟踪(TBD)方法[4]、[5]、[6]、[7]具有优势,例如无需手动设计或特征选择。其中,基于查询跟踪(Tracking-by-Query, TBQ)范式的MOTR系列方法通过将对象查询扩展为跟踪查询,并在帧间传播这些查询来实现跟踪。这类方法具有出色的可扩展性,其核心思想经常被应用于3D检测[8]、实例分割[9]和3D重建[10]等多个领域。相比之下,目前准确率更高的另一种端到端MOT方法MOTIP [3]在这方面稍显不足。其跟踪机制更类似于TBD方法,不同之处在于其检测和跟踪网络在训练过程中是联合优化的。因此,深入研究TBQ方法不仅将显著推动MOT技术的发展,还对提高MOT的效率和通用性具有重要意义。
然而,这些TBQ方法的推理速度往往不尽如人意。它们类似RNN的线性推理结构使得训练过程中对GPU的利用效率较低,而且这种线性训练范式也使得通常用于检测任务的数据增强技术无法应用。深入分析后发现,TBQ的核心机制是由解码器完成的,通过查询传播和注意力交互来建模对象轨迹和时间相关性,而编码器仅负责静态图像特征提取,对动态跟踪的核心逻辑贡献较小。
受到仅解码器模型在序列任务(例如GPT [11])中成功的启发,我们旨在消除编码器-解码器交互中存在的冗余计算。尽管我们的任务与语言建模不同,但去除编码器所带来的效率提升仍然非常相关。在大多数端到端MOT方法的基础Deformable-DETR [12]中观察到严重的不平衡:编码器占GFLOPs的49%,但对AP的贡献仅为11%。这引发了这样一个问题:在MOTR中,庞大的Transformer编码器是否同样冗余。为了解决这个问题,我们提出了DecoderTracker。需要明确的是,我们使用“仅解码器”这一术语是为了特指Transformer模块:与MOTR不同,我们的框架保留了用于视觉特征提取的CNN骨干网络,但完全去除了Transformer编码器,直接将骨干网络连接到Transformer解码器。通过将计算资源集中在解码器上——这一对时间建模至关重要的组件上,我们为显著提高推理速度和训练效率奠定了基础。此外,在训练范式方面,我们质疑了持续强监督的必要性。受到计算机视觉中弱监督[14]、[15]成功的启发,我们引入了跟踪框选择过程(Tracking Box Selection Process, TBSP)以促进高效预训练。因此,DecoderTracker在推理速度和性能上均优于以往的方法,如图1所示。
尽管进行了这些架构优化,但实证观察显示,虽然训练时间显著缩短,但推理速度并未如预期那样提高。这一现象促使我们进一步深入研究。理论上,简化网络架构应该更显著地提升推理速度而非训练效率。为了调查这一异常现象,我们系统分析了各个模块的时间消耗分布。结果发现,解码器模块占据了大部分时间,消耗了模型总推理时间的近三分之二,这是不合理的。通过进一步的跨模型比较分析,我们发现MOTR中也存在这一问题,但其基础模型Deformable DETR则没有。控制变量实验表明,固定查询数量可以显著降低解码器延迟。考虑到GPU内存使用等因素,我们最终确定根本原因是动态查询机制。这种机制在推理过程中引入了不必要的开销,例如在现代深度学习框架(如PyTorch/TensorFlow)中导致GPU内存分配效率低下,并可能阻碍编译优化(如操作符融合)。为了解决这个问题,我们提出了固定大小查询内存(Fixed-Size Query Memory, FSQM)来处理固定查询跟踪。通过整合FSQM并优化原始解码器和TAN模块中的注意力层,我们开发了FixDT(固定查询解码器器)。实验结果表明,尽管FixDT在计算负载上有所增加,但由于静态数据处理,其推理速度显著快于原始版本(从19.6 fps提升到28.8 fps),同时保持了相当的跟踪性能。
总结来说,本文的贡献如下:
1)主要贡献是开发了一种新型端到端跟踪网络DecoderTracker,这是一种仅使用解码器的方法。与MOTR相比,该网络实现了更快的推理速度和更好的跟踪性能。
2)第二个关键创新是引入了一种独特的训练策略,该策略分为三个阶段。同时,我们采用了TBSP,这是一种为端到端MOT方法的初步训练设计的弱监督训练策略。这些策略通过提高训练过程的效率,加速了方法的收敛速度并减少了总体训练时间。
3)最后,通过利用FSQM并优化网络中的某些自注意力层,我们开发了FixDT,解决了由动态数据引起的额外延迟问题。这为类似MOTR的端到端MOT模型的工程部署提供了一条可行的技术路径。