视觉目标跟踪是计算机视觉中的一个基本任务,支持多种应用,如自动驾驶和虚拟现实。尽管已经开发了许多鲁棒的目标跟踪器[1]、[2]、[3],但仅依赖RGB模态的方法在低光照、遮挡和恶劣天气等挑战性条件下往往无法正常工作,因为RGB在这些场景中缺乏不变的线索。相比之下,热红外(TIR)图像对光照变化具有鲁棒性,并提供了补充的结构信息。这激发了RGB–T跟踪技术的发展,该技术整合了可见光和热红外信号以提高鲁棒性。
在多模态跟踪领域[4]、[5]中,一个流行的方法是适应预训练的RGB跟踪器以处理异构模态(如TIR)。尽管这种方法可以充分利用从大规模RGB数据中学习到的先验知识,但在完全微调和参数高效微调方案下仍存在明显局限性。一方面,参数高效微调[6]、[7]仅更新少量新引入的参数,虽然减少了计算和内存开销,但由于其表示能力有限,难以有效弥合RGB和TIR之间的显著分布差距,因此其跨模态适应能力不足,性能往往不如完全微调。另一方面[8]、[9],在完全微调设置中,必须使用相对有限的RGB–T数据来更新全部预训练权重。在此过程中,RGB和TIR之间的固有分布冲突进一步加剧,使得RGB优化的匹配结构难以保持稳定,从而导致预训练的语义被破坏,整体适应过程变得不稳定,模型容易出现任务迁移中常见的灾难性遗忘问题[10]、[11]。
同时,随着视觉骨干网络变得越来越统一,最近的研究[12]、[13]、[14]显示出对单流架构的日益偏好,在这种架构中,多模态特征在单一Transformer骨干网络中共同建模。然而,由于这些架构仍然共享相同的RGB预训练权重,模型仍然存在对RGB领域的固有偏见:预训练期间形成的匹配机制主要是针对RGB表示进行优化的,当RGB和TIR信号在单流空间中混合时,这种偏见会导致模板搜索匹配性能下降,如图1所示,表现为注意力不对齐和特征表示不稳定,这严重限制了单流RGB–T跟踪的性能上限。换句话说,当一个共享的骨干网络(具有相同的参数集)为两种异构模态进行优化时,改善一种模态的更新可能会干扰并覆盖另一种模态的有用表示,从而降低提取特征的质量,进而削弱跨模态匹配能力。
基于上述局限性,我们进一步提出:是否可以在保留单流架构的统一特征空间和固有跨模态交互机制的同时,有效减弱预训练模型的RGB偏见,使其能够更稳定地适应RGB–T表示空间?为此,我们开发了CAST,这是一种基于统一骨干网络的RGB–T跟踪器,并引入了分级课程适应(CA)方案,以抑制RGB预训练语义的灾难性遗忘,同时减轻单流框架内的模态偏见。
CA的核心思想是在骨干网络中引入RGB和TIR的模态特定专家,并采用渐进式的课程式训练策略。具体来说,我们在参数/模块层面实施课程训练,通过安排专家的激活顺序并逐步解冻模块,而不是使用数据层面的课程(如重新排序训练样本)。这允许网络首先为每种模态建立稳定的语义锚点,然后逐渐适应跨模态输入。这些语义锚点被形式化为模态特定的专家分支,定义了从每种输入模态到稳定语义表示空间的固定映射。这些锚点在早期阶段单独优化,随后被冻结,从而在后续的跨模态适应过程中作为共享骨干网络的隐式正则化器。从优化的角度来看,早期跨异构模态的联合训练会在共享参数上产生冲突梯度,可能导致收敛不稳定和语义漂移。通过冻结模态特定的锚点,后续的骨干网络优化被限制在这些固定参考函数的对齐上,有效限制了解决空间并减少跨模态梯度干扰。训练过程包括四个阶段:
(1) RGB锚点阶段:大多数骨干网络参数被冻结,仅更新RGB专家以巩固预训练期间学到的RGB跟踪语义;(2) TIR锚点阶段:在不干扰RGB表示的情况下,仅更新TIR专家,使模型逐渐建立基本的TIR语义锚点;(3) 锚点适应阶段:两种模态的专家都被冻结作为稳定的语义锚点,骨干网络在它们的指导下逐渐解冻并适应以对齐和融合RGB和TIR表示;(4) 完全微调阶段:在建立锚点和对齐后,整个网络被解冻,骨干网络和预测头共同优化以充分利用单流架构的建模能力。
通过这种基于锚点的渐进式适应,CA有效缓解了灾难性遗忘,并使RGB预训练的知识能够平滑地转移到RGB–T跟踪中。然而,如果我们仅依赖模态特定的专家,学习到的表示可能仍然局限于各个模态,难以完全捕捉RGB和TIR之间的共同结构。
为了进一步增强跨模态建模能力,我们在CA的基础上引入了双专家协同(DES)模块。DES保留了模态专家,同时引入了一个专门用于跨模态建模的共享专家,并通过统一的路由机制进行管理:在早期训练阶段,仅激活模态专家以稳定RGB和TIR的语义锚点;在最终阶段,激活共享专家并与模态专家协同进行特征学习,使模型在已建立的锚点基础上获得更具泛化能力的跨模态表示。此外,我们施加了模态专家与共享专家之间的跨模态正交性约束,以抑制它们特征子空间之间的过度重叠,并在梯度更新过程中保持它们的解耦。这种机制促进了专家之间的互补表示,而不是冗余表示,增加了整体特征空间的可区分性和丰富性,并显著提高了网络在面对跨模态噪声、偏见或不一致性时的鲁棒性和协同建模能力。
尽管最近的一些RGB–T跟踪器研究也探索了类似的方法[7],但我们的设计目标和实现方式有所不同。具体来说,XTrack风格的MoE主要为非RGB辅助模态添加了额外的专家建模能力,同时保持RGB分支为单路径设计。相比之下,我们的DES在统一的单流框架内构建了RGB专家、TIR专家和共享专家,并进一步引入了专家之间的正交性约束,使模型能够更好地平衡模态特定特征和跨模态一致性。
总之,我们的主要贡献如下:
•我们开发了一种分级课程适应(CA)训练策略,逐步将预训练的RGB跟踪知识转移到单流RGB–T环境中,有效缓解了灾难性遗忘并减轻了模态偏见。
•我们设计了双专家协同(DES)模块,其中模态特定专家和共享专家在统一的路由器下协调工作。进一步引入了专家之间的正交性约束,以促进互补而非冗余的表示。
•在三个主流RGB–T跟踪基准测试数据集上的广泛实验表明,所提出的方法取得了最先进的性能,验证了其有效性和泛化能力。