步态识别通过分析个体的行走模式来识别他们。它具有非接触式传感、远距离采集和对低分辨率数据的鲁棒性等显著优势,使其在监控和公共安全应用中具有很高的前景(Sepas-Moghaddam和Etemad,2022)。尽管近年来深度学习技术显著提高了步态识别的性能,但在现实世界场景中,服装变化、遮挡和视角变化仍然会导致准确性下降(Fan等人,2020)。例如,经典的GLN(Hou等人,2020)在CASIA-B数据集上的准确率为96.9%,但当服装发生变化时,其准确率下降了近20个百分点。
为了应对服装变化和遮挡问题,研究人员引入了跨模态信息来增强模型的鲁棒性。PoseGait(Liao等人,2020)利用骨骼序列来消除外观噪声,从而在遮挡条件下提高性能。然而,仅依赖骨骼线索的判别能力有限,这促使了多模态融合策略的发展。例如,HybridGait(Dong等人,2024)整合了3D身体网格和轮廓序列来减轻视角和服装的干扰。GaitMoE(Huang等人,2024)采用专家混合机制来恢复遮挡区域中的特征,在遮挡场景中取得了显著的改进。最近的SkeletonGait(Fan等人,2024)系列引入了骨骼图,它结合了结构清晰度和光栅兼容性;其低级跨分支融合策略进一步增强了跨视角和遮挡的识别能力。
尽管取得了这些进展,但在特征鲁棒性、细粒度建模、跨模态融合和计算效率方面仍存在局限性:(1)仅依赖轮廓的模型不够鲁棒,而仅依赖骨骼的模型缺乏判别细节,难以平衡鲁棒性和判别能力。(2)固定的空间划分缺乏适应性,阻碍了泛化。(3)现有的融合策略主要依赖于简单的串联或注意力机制,因此未能充分利用跨模态互补性。(4)多分支架构或大规模自注意力模块在提高准确性的同时增加了计算负担,不利于实时部署。因此,在复杂场景中高效实现鲁棒和精确的识别仍然是一个紧迫的挑战。
基于双模态基线,我们提出了一种分层的多模态步态识别框架,包括三个关键组件——增强型3D卷积(E3D)、时空多尺度聚合(STM-SA)和周期性时空特征建模(PSTFM)。首先,E3D从全局时空背景、单帧细节和空间条带中提取多尺度特征,生成高分辨率表示。其次,STM-SA采用全局-局部双分支架构,在时间域结合多尺度扩张卷积,在空间域结合条带建模,有效处理遮挡和视角差异。最后,PSTFM通过多层感知器(MLP)分配动态条带帧权重,并使用残差周期性聚合来精确增强特征,强调周期性身份线索。这三个模块协同工作,显著提高了在服装变化、遮挡和跨视图设置下的泛化能力。
本工作的主要贡献如下:(1)我们引入了E3D增强卷积结构以及步幅调整策略,提高了特征分辨率和跨模态融合能力。(2)我们提出了STM-SA,这是第一个高效的全局-局部双分支融合模块,在复杂条件下显著提高了鲁棒性。(3)我们提出了PSTFM,它与STM-SA结合使用动态条带权重和周期性对齐,实现了精确的时空建模和增强。(4)广泛的比较和消融研究表明,所提出的方法在具有挑战性的真实世界环境中具有优越的性能和实用性。
本文的其余部分组织如下:第2节回顾相关工作;第3节详细介绍了所提出的方法;第4节展示了实验分析;第5节总结了本文。