在“黑暗”中揭示行人的身份：一种基于多视图增强的协作式Transformer模型1

时间：2026年1月20日

来源：Expert Systems with Applications

编辑推荐：

夜间行人重识别面临低光照、颜色失真和噪声挑战，传统两阶段增强识别方法存在目标错位问题。本文提出CMV-Former三分支Transformer架构，分别处理原始图像、全局亮度增强图像和细节修复图像，并设计Query-guided Collaborative Pruning（QCP）模块实现跨分支协同剪枝，显著提升性能。

刘美峰|韩华|A.A.M. 穆扎希德|黄丽

上海工程技术大学电子与电气工程学院，中国上海，201620

摘要

夜间人员重识别（ReID）是确保全天候城市监控的关键任务。然而，其性能受到一系列挑战的严重阻碍，包括照明不足、颜色失真严重以及噪声较大。传统方法通常采用“增强-然后识别”的两阶段范式。然而，这种分离的方法往往导致次优的解决方案，主要是因为通用图像增强的目标并未针对人员ReID任务的特定需求进行定制。因此，下游识别模型必须依赖于单一且可能存在偏差的图像表示。为了克服这些限制，我们提出了协作多视图增强Transformer（CMV-Former），这是一种新颖的三分支视觉Transformer（ViT）架构，旨在以深度交互的方式学习互补特征。我们的模型由上下文分支、结构分支和细节分支组成，每个分支分别处理不同类型的图像输入：原始图像、全局亮度增强的图像和细节精细化的图像。这种设计使模型能够同时捕捉原始的环境背景、抗照明的结构和细粒度细节。CMV-Former的核心是我们提出的查询引导的协作剪枝（QCP）模块。QCP模块嵌入在每个Transformer块中，通过利用所有三个分支共享的可学习查询空间来执行协作特征剪枝。在训练过程中，所有分支的梯度共同优化这个共享空间，从而促进它们之间的隐性协同作用。这种机制使得每个分支的剪枝决策能够受到其他分支特征表示的启发。因此，各分支协同工作，共同识别最具区分性的图像块，同时自适应地剪除不重要的信息。这一过程不仅显著提高了计算效率，还提升了模型性能。在多个具有挑战性的夜间人员ReID公共数据集（如Night600和NightReID）上的广泛实验表明，CMV-Former的性能明显优于当前的最先进（SOTA）方法。

引言

人员重识别（ReID）是计算机视觉中的一个基础研究领域，其目标是在非重叠的相机视图之间匹配同一人（Ye等人，2022年6月）。这项技术具有巨大的实际价值，并在智能监控、公共安全、智慧城市和刑事调查等广泛应用中展现出巨大潜力。得益于深度学习的快速进展，人员在白天和照明良好的场景下的ReID性能取得了显著进步。然而，现实世界的监控场景往往复杂多样，人员在夜间条件下面临严峻挑战。夜间图像通常具有照明不足、颜色失真、噪声较大和模糊等特点，这使得捕捉和区分行人外观特征变得困难。在极低光照条件下，行人甚至可能完全融入黑暗背景中，形成一种“自然伪装”。这导致依赖可见光图像的传统ReID方法性能急剧下降。如图1所示，我们对比了两个代表性模型：经典的ResNet-50（He等人，2016年）和鲁棒的TransReID-SSL（罗等人，2021年）。尽管这两个模型在照明良好的Market1501数据集（郑等人，2015年）上表现强劲（ResNet-50：75.9％ mAP / 89.2％ Rank-1；TransReID-SSL：92.8％ mAP / 96.8％ Rank-1），但当直接应用于夜间Night600数据集（卢，2024年）时，它们的效果却大打折扣。具体来说，ResNet-50的Rank-1准确率降至6.7％，TransReID-SSL的准确率降至20.9％，mAP也出现了类似急剧下降。这种明显的性能差距凸显了低光照环境对人员重识别的严峻挑战。

为了解决这一挑战，一个突出的研究方向是跨模态ReID，特别是RGB-红外（RGB-IR）ReID（姚等人，2025年12月）。这种方法利用红外图像来绕过低光照问题，从而在夜间场景中取得了一定的进展（吴等人，2017年；王，2020年）。然而，红外硬件的高成本和异构模态对齐的复杂性限制了其在城市监控中的可扩展性。此外，红外图像本质上缺乏对ReID至关重要的颜色和纹理线索，从而限制了其在某些场景中的区分能力。因此，开发一种仅依赖RGB相机、无需昂贵硬件的夜间ReID解决方案仍然是一个关键的研究焦点。

对于基于RGB的夜间ReID，常见的范式是“增强-然后识别”。然而，这种方法面临一个根本性挑战，因为增强算法不可避免地会引入伪影和噪声，这些伪影和噪声会成为特征空间中的干扰因素。为了解决这个问题，IDF（卢，2024年）使用照明蒸馏网络整合原始图像和增强图像的特征。虽然这种策略减少了对抗增强图像的依赖，但蒸馏过程累积了增强流中存在的伪影，从而降低了最终表示的质量。同样，EDA（赵等人，2025年4月）结合了去噪算法来抑制增强视图中的噪声，但它很大程度上忽略了原始夜间数据中存在的固有噪声。因此，如何在各分支之间协作消除干扰特征仍然是一个关键挑战。

近年来，视觉Transformer（ViT）（Dosovitskiy等人，2020年）因其强大的全局建模能力而成为CNN（Wang等人，2020年）的优越替代方案。为了解决这些挑战，我们提出了协作多视图增强Transformer（CMV-Former）。我们的模型引入了一种创新的三分支架构：上下文分支直接处理原始夜间图像，以从真实的、具有挑战性的条件中学习特征；结构分支处理经过Gamma校正增强的图像，专注于捕捉抗光照的轮廓；细节分支利用Zero-DCE++（李等人，2021年）恢复的图像来提取可靠的颜色和高级服装属性。

此外，为了协作识别和剪除不重要的特征（例如伪影），我们设计了一个查询引导的协作剪枝（QCP）模块。与缺乏中间交互的传统并行架构不同，我们的QCP模块集成在每个Transformer块中。它利用所有分支共同优化的共享查询空间，隐式地指导每个分支内的协作剪枝决策。这迫使模型学习一个全面而简洁的特征表示，同时在所有视角中保留关键信息，有效消除干扰特征。

本文的主要贡献总结如下：

(1) 我们提出了CMV-Former，一种新颖的三分支协作框架，它从多个增强视图构建了丰富的、统一的表示，用于夜间行人ReID。

(2) 我们提出了一个查询引导的协作剪枝（QCP）模块，通过共享查询空间实现了分支间的新型隐性协作，有效消除了干扰特征，从而显著提升了模型性能。

(3) 我们提出了两种新颖的损失函数：跨分支硬挖掘三元组损失和语义对齐损失。此外，在多个公共夜间ReID基准测试上的广泛实验表明，我们提出的CMV-Former优于所有当前的最先进（SOTA）方法。

部分摘录

人员重识别

早期的ReID方法（Farenzena等人，2010年；Gray和Tao，2008年；Zhao等人，2013年）主要依赖于手工制作的特征，如颜色直方图和纹理描述符，并结合度量学习算法来计算行人图像之间的相似性。然而，这些方法在复杂场景中的性能有限。随着深度学习的兴起，特别是CNN（Wang等人，2020年）的广泛应用，人员ReID领域取得了突破性进展