基于增强型3D卷积技术和多尺度周期性建模的双模态步态识别

时间：2026年3月7日

来源：Computer Vision and Image Understanding

编辑推荐：

双模态步态识别框架通过融合 silhouettes 和 skeleton maps，结合增强型3D卷积、时空多尺度聚合和周期时空特征建模三模块，有效应对服装变化与遮挡问题，在SUSTech1K和CCPG数据集上精度分别达87.1%和94.8%，优于现有方法5.8%-10.9%。

顾俊豪|王秀辉

浙江-新西兰联合基于视觉的智能计量实验室，信息工程学院，杭州，浙江，310018，中国

摘要

步态识别因其非接触性、远距离适用性和抗欺骗能力而受到越来越多的关注。然而，在服装变化和部分遮挡的情况下，其性能会显著下降。为了解决这些问题，本文提出了一种双模态步态识别框架，该框架融合了轮廓图和骨骼图，并结合了三个关键模块——增强型3D卷积（E3D）、时空多尺度聚合（STM-SA）和周期性时空特征建模（PSTFM）。具体来说，E3D利用多分支3D卷积来延迟下采样，同时提取全局动态、瞬时局部模式和条带结构信息，从而在服装变化的情况下显著提高了鲁棒性和准确性。STM-SA采用全局-局部双分支设计，通过结合多尺度扩张卷积和基于条带的建模来明确对抗遮挡。PSTFM通过使用条带级MLP动态权重和残差周期性聚合来突出关键帧和运动周期性。这三个模块分层工作，实现了“细粒度细化-跨尺度融合-周期性增强”策略，在复杂场景中显著提高了鲁棒性和判别能力。大量实验表明，所提出的方法将SUSTech1K数据集的平均准确率提高到87.1%，比当前的最先进方法高出5.8%。在具有挑战性的服装和遮挡子集中，精度分别提高了10.9%和4.0%。此外，在CCPG数据集上，我们的框架在全身服装变化（CL-Full）和下半身服装变化（CL-DN）场景下分别达到了93.3%和94.8%的准确率，建立了新的最佳结果。

引言

步态识别通过分析个体的行走模式来识别他们。它具有非接触式传感、远距离采集和对低分辨率数据的鲁棒性等显著优势，使其在监控和公共安全应用中具有很高的前景（Sepas-Moghaddam和Etemad，2022）。尽管近年来深度学习技术显著提高了步态识别的性能，但在现实世界场景中，服装变化、遮挡和视角变化仍然会导致准确性下降（Fan等人，2020）。例如，经典的GLN（Hou等人，2020）在CASIA-B数据集上的准确率为96.9%，但当服装发生变化时，其准确率下降了近20个百分点。

为了应对服装变化和遮挡问题，研究人员引入了跨模态信息来增强模型的鲁棒性。PoseGait（Liao等人，2020）利用骨骼序列来消除外观噪声，从而在遮挡条件下提高性能。然而，仅依赖骨骼线索的判别能力有限，这促使了多模态融合策略的发展。例如，HybridGait（Dong等人，2024）整合了3D身体网格和轮廓序列来减轻视角和服装的干扰。GaitMoE（Huang等人，2024）采用专家混合机制来恢复遮挡区域中的特征，在遮挡场景中取得了显著的改进。最近的SkeletonGait（Fan等人，2024）系列引入了骨骼图，它结合了结构清晰度和光栅兼容性；其低级跨分支融合策略进一步增强了跨视角和遮挡的识别能力。

尽管取得了这些进展，但在特征鲁棒性、细粒度建模、跨模态融合和计算效率方面仍存在局限性：（1）仅依赖轮廓的模型不够鲁棒，而仅依赖骨骼的模型缺乏判别细节，难以平衡鲁棒性和判别能力。（2）固定的空间划分缺乏适应性，阻碍了泛化。（3）现有的融合策略主要依赖于简单的串联或注意力机制，因此未能充分利用跨模态互补性。（4）多分支架构或大规模自注意力模块在提高准确性的同时增加了计算负担，不利于实时部署。因此，在复杂场景中高效实现鲁棒和精确的识别仍然是一个紧迫的挑战。

基于双模态基线，我们提出了一种分层的多模态步态识别框架，包括三个关键组件——增强型3D卷积（E3D）、时空多尺度聚合（STM-SA）和周期性时空特征建模（PSTFM）。首先，E3D从全局时空背景、单帧细节和空间条带中提取多尺度特征，生成高分辨率表示。其次，STM-SA采用全局-局部双分支架构，在时间域结合多尺度扩张卷积，在空间域结合条带建模，有效处理遮挡和视角差异。最后，PSTFM通过多层感知器（MLP）分配动态条带帧权重，并使用残差周期性聚合来精确增强特征，强调周期性身份线索。这三个模块协同工作，显著提高了在服装变化、遮挡和跨视图设置下的泛化能力。

本工作的主要贡献如下：（1）我们引入了E3D增强卷积结构以及步幅调整策略，提高了特征分辨率和跨模态融合能力。（2）我们提出了STM-SA，这是第一个高效的全局-局部双分支融合模块，在复杂条件下显著提高了鲁棒性。（3）我们提出了PSTFM，它与STM-SA结合使用动态条带权重和周期性对齐，实现了精确的时空建模和增强。（4）广泛的比较和消融研究表明，所提出的方法在具有挑战性的真实世界环境中具有优越的性能和实用性。

本文的其余部分组织如下：第2节回顾相关工作；第3节详细介绍了所提出的方法；第4节展示了实验分析；第5节总结了本文。

部分摘录

步态识别

步态识别方法可以分为基于外观的方法和基于骨骼的方法。传统的外观基技术依赖于轮廓信息；例如，步态能量图像（Shiraga等人，2016）（GEI）利用卷积网络实现跨视图识别，但它仍然容易受到服装变化和遮挡的影响。近年来，深度学习方法大大推动了该领域的发展。Chao等人提出的GaitSet（Chao等人，2019）

概述

如图1所示，所提出的步态识别框架包括四个关键组件：多模态特征融合、E3D、STM-SA和PSTFM。首先，模型从步态轮廓和骨骼图中独立提取原始特征；然后在通道级别融合这些特征，形成联合的多模态表示。融合后的特征随后通过E3D堆栈进行细化，提取细粒度的局部运动和全局动态。接下来，STM-SA采用

实验

为了验证所提出的双模态、多尺度和周期性增强框架在复杂场景中的有效性，我们在三个公共基准数据集上进行了评估：SUSTech1K和CCPG用于受控评估，这些数据集涵盖了服装变化、遮挡和夜间场景等极端条件；Gait3D用于真实世界鲁棒性验证。我们首先介绍数据集和评估协议，然后是实现细节；比较结果、消融研究，