人员重识别(ReID)是计算机视觉中的一个基础研究领域,其目标是在非重叠的相机视图之间匹配同一人(Ye等人,2022年6月)。这项技术具有巨大的实际价值,并在智能监控、公共安全、智慧城市和刑事调查等广泛应用中展现出巨大潜力。得益于深度学习的快速进展,人员在白天和照明良好的场景下的ReID性能取得了显著进步。然而,现实世界的监控场景往往复杂多样,人员在夜间条件下面临严峻挑战。夜间图像通常具有照明不足、颜色失真、噪声较大和模糊等特点,这使得捕捉和区分行人外观特征变得困难。在极低光照条件下,行人甚至可能完全融入黑暗背景中,形成一种“自然伪装”。这导致依赖可见光图像的传统ReID方法性能急剧下降。如图1所示,我们对比了两个代表性模型:经典的ResNet-50(He等人,2016年)和鲁棒的TransReID-SSL(罗等人,2021年)。尽管这两个模型在照明良好的Market1501数据集(郑等人,2015年)上表现强劲(ResNet-50:75.9% mAP / 89.2% Rank-1;TransReID-SSL:92.8% mAP / 96.8% Rank-1),但当直接应用于夜间Night600数据集(卢,2024年)时,它们的效果却大打折扣。具体来说,ResNet-50的Rank-1准确率降至6.7%,TransReID-SSL的准确率降至20.9%,mAP也出现了类似急剧下降。这种明显的性能差距凸显了低光照环境对人员重识别的严峻挑战。
为了解决这一挑战,一个突出的研究方向是跨模态ReID,特别是RGB-红外(RGB-IR)ReID(姚等人,2025年12月)。这种方法利用红外图像来绕过低光照问题,从而在夜间场景中取得了一定的进展(吴等人,2017年;王,2020年)。然而,红外硬件的高成本和异构模态对齐的复杂性限制了其在城市监控中的可扩展性。此外,红外图像本质上缺乏对ReID至关重要的颜色和纹理线索,从而限制了其在某些场景中的区分能力。因此,开发一种仅依赖RGB相机、无需昂贵硬件的夜间ReID解决方案仍然是一个关键的研究焦点。
对于基于RGB的夜间ReID,常见的范式是“增强-然后识别”。然而,这种方法面临一个根本性挑战,因为增强算法不可避免地会引入伪影和噪声,这些伪影和噪声会成为特征空间中的干扰因素。为了解决这个问题,IDF(卢,2024年)使用照明蒸馏网络整合原始图像和增强图像的特征。虽然这种策略减少了对抗增强图像的依赖,但蒸馏过程累积了增强流中存在的伪影,从而降低了最终表示的质量。同样,EDA(赵等人,2025年4月)结合了去噪算法来抑制增强视图中的噪声,但它很大程度上忽略了原始夜间数据中存在的固有噪声。因此,如何在各分支之间协作消除干扰特征仍然是一个关键挑战。
近年来,视觉Transformer(ViT)(Dosovitskiy等人,2020年)因其强大的全局建模能力而成为CNN(Wang等人,2020年)的优越替代方案。为了解决这些挑战,我们提出了协作多视图增强Transformer(CMV-Former)。我们的模型引入了一种创新的三分支架构:上下文分支直接处理原始夜间图像,以从真实的、具有挑战性的条件中学习特征;结构分支处理经过Gamma校正增强的图像,专注于捕捉抗光照的轮廓;细节分支利用Zero-DCE++(李等人,2021年)恢复的图像来提取可靠的颜色和高级服装属性。
此外,为了协作识别和剪除不重要的特征(例如伪影),我们设计了一个查询引导的协作剪枝(QCP)模块。与缺乏中间交互的传统并行架构不同,我们的QCP模块集成在每个Transformer块中。它利用所有分支共同优化的共享查询空间,隐式地指导每个分支内的协作剪枝决策。这迫使模型学习一个全面而简洁的特征表示,同时在所有视角中保留关键信息,有效消除干扰特征。
本文的主要贡献总结如下:
(1) 我们提出了CMV-Former,一种新颖的三分支协作框架,它从多个增强视图构建了丰富的、统一的表示,用于夜间行人ReID。
(2) 我们提出了一个查询引导的协作剪枝(QCP)模块,通过共享查询空间实现了分支间的新型隐性协作,有效消除了干扰特征,从而显著提升了模型性能。
(3) 我们提出了两种新颖的损失函数:跨分支硬挖掘三元组损失和语义对齐损失。此外,在多个公共夜间ReID基准测试上的广泛实验表明,我们提出的CMV-Former优于所有当前的最先进(SOTA)方法。