针对单流 RGB–T 跟踪的课程调整

生物通首页 > 今日动态 > 正文

针对单流 RGB–T 跟踪的课程调整

时间：2026年3月18日

来源：Pattern Recognition

编辑推荐：

课程式适应训练缓解灾难性遗忘，双专家协同模块与正交性约束提升多模态目标跟踪效果，在RGB-T跟踪中验证有效性。

中国江苏省南京市南京科技大学计算机科学与工程学院，教育部高维信息智能感知与系统重点实验室PCA实验室，邮编210094

摘要

由于在复杂环境中的卓越鲁棒性，RGB–T跟踪技术受到了越来越多的关注。然而，将强大的RGB预训练模型有效应用于RGB–T跟踪仍然是一个基本挑战。尽管现有方法通常基于RGB预训练的框架构建，但显著的跨模态差异常常导致语义漂移，从而削弱了目标匹配和模态融合的性能。为了解决这个问题，我们提出了分级训练策略——课程适应（Curriculum Adaptation，简称CA），该策略逐步提升模型对RGB–T多模态信息的建模和对齐能力，同时保留了RGB预训练期间学习到的语义结构。为了进一步实现这种基于课程的适应，我们引入了双专家协同（Dual-Expert Synergy，简称DES）模块，其中模态特定的专家保留模态特征，而共享专家捕捉跨模态共性。我们引入了正交性损失（Orthogonality Loss）来加强专家之间的互补性，使得在CA框架内更有效地平衡模态多样性和跨模态一致性。在三个具有挑战性的基准测试数据集LasHeR、VTUAV和RGBT234上的广泛实验表明，我们的CAST方法在准确性方面取得了有竞争力的性能。

引言

视觉目标跟踪是计算机视觉中的一个基本任务，支持多种应用，如自动驾驶和虚拟现实。尽管已经开发了许多鲁棒的目标跟踪器[1]、[2]、[3]，但仅依赖RGB模态的方法在低光照、遮挡和恶劣天气等挑战性条件下往往无法正常工作，因为RGB在这些场景中缺乏不变的线索。相比之下，热红外（TIR）图像对光照变化具有鲁棒性，并提供了补充的结构信息。这激发了RGB–T跟踪技术的发展，该技术整合了可见光和热红外信号以提高鲁棒性。

在多模态跟踪领域[4]、[5]中，一个流行的方法是适应预训练的RGB跟踪器以处理异构模态（如TIR）。尽管这种方法可以充分利用从大规模RGB数据中学习到的先验知识，但在完全微调和参数高效微调方案下仍存在明显局限性。一方面，参数高效微调[6]、[7]仅更新少量新引入的参数，虽然减少了计算和内存开销，但由于其表示能力有限，难以有效弥合RGB和TIR之间的显著分布差距，因此其跨模态适应能力不足，性能往往不如完全微调。另一方面[8]、[9]，在完全微调设置中，必须使用相对有限的RGB–T数据来更新全部预训练权重。在此过程中，RGB和TIR之间的固有分布冲突进一步加剧，使得RGB优化的匹配结构难以保持稳定，从而导致预训练的语义被破坏，整体适应过程变得不稳定，模型容易出现任务迁移中常见的灾难性遗忘问题[10]、[11]。

同时，随着视觉骨干网络变得越来越统一，最近的研究[12]、[13]、[14]显示出对单流架构的日益偏好，在这种架构中，多模态特征在单一Transformer骨干网络中共同建模。然而，由于这些架构仍然共享相同的RGB预训练权重，模型仍然存在对RGB领域的固有偏见：预训练期间形成的匹配机制主要是针对RGB表示进行优化的，当RGB和TIR信号在单流空间中混合时，这种偏见会导致模板搜索匹配性能下降，如图1所示，表现为注意力不对齐和特征表示不稳定，这严重限制了单流RGB–T跟踪的性能上限。换句话说，当一个共享的骨干网络（具有相同的参数集）为两种异构模态进行优化时，改善一种模态的更新可能会干扰并覆盖另一种模态的有用表示，从而降低提取特征的质量，进而削弱跨模态匹配能力。

基于上述局限性，我们进一步提出：是否可以在保留单流架构的统一特征空间和固有跨模态交互机制的同时，有效减弱预训练模型的RGB偏见，使其能够更稳定地适应RGB–T表示空间？为此，我们开发了CAST，这是一种基于统一骨干网络的RGB–T跟踪器，并引入了分级课程适应（CA）方案，以抑制RGB预训练语义的灾难性遗忘，同时减轻单流框架内的模态偏见。

CA的核心思想是在骨干网络中引入RGB和TIR的模态特定专家，并采用渐进式的课程式训练策略。具体来说，我们在参数/模块层面实施课程训练，通过安排专家的激活顺序并逐步解冻模块，而不是使用数据层面的课程（如重新排序训练样本）。这允许网络首先为每种模态建立稳定的语义锚点，然后逐渐适应跨模态输入。这些语义锚点被形式化为模态特定的专家分支，定义了从每种输入模态到稳定语义表示空间的固定映射。这些锚点在早期阶段单独优化，随后被冻结，从而在后续的跨模态适应过程中作为共享骨干网络的隐式正则化器。从优化的角度来看，早期跨异构模态的联合训练会在共享参数上产生冲突梯度，可能导致收敛不稳定和语义漂移。通过冻结模态特定的锚点，后续的骨干网络优化被限制在这些固定参考函数的对齐上，有效限制了解决空间并减少跨模态梯度干扰。训练过程包括四个阶段：

(1) RGB锚点阶段：大多数骨干网络参数被冻结，仅更新RGB专家以巩固预训练期间学到的RGB跟踪语义；(2) TIR锚点阶段：在不干扰RGB表示的情况下，仅更新TIR专家，使模型逐渐建立基本的TIR语义锚点；(3) 锚点适应阶段：两种模态的专家都被冻结作为稳定的语义锚点，骨干网络在它们的指导下逐渐解冻并适应以对齐和融合RGB和TIR表示；(4) 完全微调阶段：在建立锚点和对齐后，整个网络被解冻，骨干网络和预测头共同优化以充分利用单流架构的建模能力。

通过这种基于锚点的渐进式适应，CA有效缓解了灾难性遗忘，并使RGB预训练的知识能够平滑地转移到RGB–T跟踪中。然而，如果我们仅依赖模态特定的专家，学习到的表示可能仍然局限于各个模态，难以完全捕捉RGB和TIR之间的共同结构。

为了进一步增强跨模态建模能力，我们在CA的基础上引入了双专家协同（DES）模块。DES保留了模态专家，同时引入了一个专门用于跨模态建模的共享专家，并通过统一的路由机制进行管理：在早期训练阶段，仅激活模态专家以稳定RGB和TIR的语义锚点；在最终阶段，激活共享专家并与模态专家协同进行特征学习，使模型在已建立的锚点基础上获得更具泛化能力的跨模态表示。此外，我们施加了模态专家与共享专家之间的跨模态正交性约束，以抑制它们特征子空间之间的过度重叠，并在梯度更新过程中保持它们的解耦。这种机制促进了专家之间的互补表示，而不是冗余表示，增加了整体特征空间的可区分性和丰富性，并显著提高了网络在面对跨模态噪声、偏见或不一致性时的鲁棒性和协同建模能力。

尽管最近的一些RGB–T跟踪器研究也探索了类似的方法[7]，但我们的设计目标和实现方式有所不同。具体来说，XTrack风格的MoE主要为非RGB辅助模态添加了额外的专家建模能力，同时保持RGB分支为单路径设计。相比之下，我们的DES在统一的单流框架内构建了RGB专家、TIR专家和共享专家，并进一步引入了专家之间的正交性约束，使模型能够更好地平衡模态特定特征和跨模态一致性。

总之，我们的主要贡献如下：

•

我们开发了一种分级课程适应（CA）训练策略，逐步将预训练的RGB跟踪知识转移到单流RGB–T环境中，有效缓解了灾难性遗忘并减轻了模态偏见。

•

我们设计了双专家协同（DES）模块，其中模态特定专家和共享专家在统一的路由器下协调工作。进一步引入了专家之间的正交性约束，以促进互补而非冗余的表示。

•

在三个主流RGB–T跟踪基准测试数据集上的广泛实验表明，所提出的方法取得了最先进的性能，验证了其有效性和泛化能力。

部分摘录

RGB-T跟踪

随着基于Transformer的跟踪框架和大规模预训练模型的发展，RGB–T跟踪[15]、[16]围绕如何有效利用RGB预训练知识的同时整合热红外信息的问题进行了演化。早期方法通常在RGB预训练的骨干网络上进行轻量级适配。例如，ViPT[17]将TIR特征作为多级视觉提示注入到冻结的OStrack[18]骨干网络中；Un-Track采用低秩分解

方法论

在本文中，我们介绍了CAST，这是一个通用的单流RGB–T跟踪框架，旨在缓解直接在多模态任务上微调RGB预训练跟踪器时出现的灾难性遗忘问题。图2和图3展示了整体架构。在本节中，我们首先概述了骨干网络设计，然后介绍了提出的CA训练方案、DES模块和损失函数。

CAST以RGB和TIR的物体模板和搜索区域作为输入

实现

我们在PyTorch中实现了CAST，并在8个NVIDIA 4090 GPU上进行了训练，全局批量大小为16。骨干网络是HiViT[41]模型。在骨干网络的第3层、第9层、第15层和第21层插入了双专家协同（DES）模块。每个DES模块包含五个模态特定专家（四个可训练的路由专家和一个固定专家）和四个共享专家，使用Topk路由策略（

k = 2 来激活专家。该模型以两张模板图像和一张搜索图像作为输入

结论

我们提出了CAST，这是一种用于单流RGB–T跟踪的课程适应训练框架。通过逐步通过模态特定专家适应RGB预训练知识，并在后期激活共享专家，CAST缓解了灾难性遗忘，并实现了模态独特特征和模态通用特征的平衡建模。提出的双专家协同模块结合了正交性约束，进一步促进了专家的互补专业化。在

局限性和讨论

尽管我们的方法在跨模态跟踪中取得了持续的性能提升，但仍存在一些局限性和设计考虑因素。

我们的框架旨在实现训练一致的表示学习，而不是追求严格的表示兼容性理论证明。在CA策略中，前两个阶段独立优化RGB和TIR分支，同时冻结骨干网络，这有助于通过鼓励

CRediT作者贡献声明

Xiantao Hu：撰写 – 审稿与编辑，撰写 – 原稿，可视化，验证，方法论，概念化。Fansheng Zeng：可视化，验证。Bineng Zhong：撰写 – 审稿与编辑，撰写 – 原稿，监督。Zhangyong Tang：监督，形式分析，数据管理。Wenxuan Fang：可视化，数据管理。Jun Li：撰写 – 原稿。Ying Tai：撰写 – 审稿与