在3D数据感知领域,3D传感器数据已成为实现高精度目标感知的核心载体,有效弥合了离散数据采集和连续动态场景理解之间的需求。点云由多种类型的3D传感器(如能够确保空间精度的LiDAR或能够提供RGB-D辅助属性的Kinect)生成,它们是集成了多维空间位置信息和强度、颜色等补充属性特征的离散3D空间点集合。当这些点云按时间维度排序形成连续的点云序列时,其本质是通过时空信息融合实现对观察目标的高保真几何动态表示和精细的形态描述。点云凭借其独特的时空数据表示能力和多维信息集成优势,已成为信息融合领域的重要研究对象。大量研究表明,点云序列在信息融合场景中具有丰富的应用价值,涵盖了自动驾驶环境感知[1]、基于VR的虚实融合交互训练[2]以及智能生产线中的多源质量检测[3]等技术领域。特别是在智能工业自动化中的人体动作识别动态应用场景中,点云序列能够准确捕捉人体的静态拓扑结构和动态运动轨迹,这直接支持了工业场景的情境感知需求。通过实时监控生产线上的异常人体动作,可以有效降低工作相关伤害的风险。
点云序列本质上具有稀疏结构和不规则分布的特点,同时缺乏明确的空间拓扑约束。所有这些因素共同给表示和建模点云序列内的时空关系带来了重大挑战。早期的研究[4]根据体素和点之间的相似性将点云序列转换为规则的、有序的体素序列,然后应用基于网格的卷积来提取运动特征。然而,体素化过程不可避免地引入了量化误差,从而导致人体几何信息的丢失。鉴于这些限制,研究人员致力于开发可以直接处理点云序列的深度学习架构,这些架构主要可以分为两类:(1)全程运动结构建模和(2)多阶段运动分解建模。对于全程运动时间结构的建模,Meteronet[5]采用全局时间维度下的点跟踪策略来感知局部空间运动变化。对于全程运动空间结构的建模,HyperpointNet[6]试图通过明确的空间-时间解耦直接编码全局空间静态外观,并推导出运动的时间演化过程。相比之下,多阶段运动分解建模方法[7]、[8]将运动分解为多个片段,并构建跨帧的时空点管来封装局部运动信息。在此基础上,最近的进展[9]、[10]将点时空卷积与Transformer架构或Mamba状态空间模型相结合,增强了捕捉更大动态场景中运动依赖性的能力。
尽管上述研究方法在人体动作识别方面取得了显著进展,但它们都未能充分考虑点云序列的固有双重特性:结构特性和信息特性。结构特性表现为空间维度的不规则性和无序性,而时间维度则表现出规律性和有序性[7]、[8]。在全程运动时间建模中,由于空间维度的不规则性和无序性,频繁的点跨帧流入或流出引起的异常扰动显著降低了关键运动转换的时间相位敏感性。此外,目前的全程运动空间建模方法通常依赖于孤立的姿态抽象范式,未能结合时间结构的规律性和有序性。因此,它们忽略了人体动作演变的连贯性和阶段性,最终导致无法充分探索身体各部位的细粒度语义相关性。从信息特性的角度来看,点云序列主要传递空间信息作为核心的区分元素,时间信息作为空间结构变化的补充线索[6]、[11]。这种时空信息不对称性要求在处理过程中最小化时空维度之间的相互干扰,以保持空间信息的完整性。尽管点时空卷积试图明确分离空间和时间维度以解决时空纠缠问题,但它仅限于局部邻域,并将运动划分为多个片段,这损害了空间结构表示的完整性和一致性。
为了解决这些限制,我们提出了SequentialPointNet++,这是一种基于姿态和运动链融合的强化超点网络。它包括两个核心模块:R-Hyperpoint生成器(RHG)模块和多阶段时间子动作解析(MTSP)模块。通过这两个模块的协同合作,SequentialPointNet++能够有效地捕捉复杂人体动作中的宏观姿态几何和微观运动细节,从而在3D动作识别任务中实现了显著的准确性提升。具体来说,R-Hyperpoint生成器模块产生了一种称为R-Hyperpoint的新点表示方法,它融合了每个时间戳的全局静态姿态摘要和区域动态运动链。如图1所示,RHG模块设计了一个双块架构:一个几何感知姿态建模块根据点云的信息特性来编码全局人体姿态,生成姿态单元;一个运动链感知动态传播块以点云的结构特性为核心入口点,通过捕捉关键肢体动态并推断时间关联关系来构建复杂多样的运动链。随后,R-Hyperpoint序列被输入到多阶段时间子动作解析模块中,该模块根据肢体的运动阶段属性将R-Hyperpoint序列适应性地划分为不同的时间感知域中的子动作。每个子动作模式都被解析以提供特定于粒度的语义,然后进行融合,以实现对人体运动的全面学习。
我们的主要贡献总结如下:
•我们设计了一个R-Hyperpoint生成器模块,该模块由几何感知姿态建模块和运动链感知动态传播块组成。前者基于点云的信息特性进行建模,专门用于提取明确的姿态结构。后者关注结构特性,通过构建潜在的运动链来恢复细粒度的运动相关性。利用双块协作架构,RHG模块融合了空间结构和时间演化特征,生成统一的R-Hyperpoint表示,从而实现对人体动作的全面准确表示。
•我们提出了一个多阶段时间子动作解析(MTSP)模块,以解决肢体运动之间的显著相位差异。MTSP模块将R-Hyperpoint序列解析为不同时间感知域中的子动作,以学习区分性的子动作特征。这些特征被加权并融合,从而有效描绘不同身体部位的具体运动模式。
•我们提出了SequentialPointNet++,一种用于3D动作识别的强化超点网络。SequentialPointNet++在MSR Action3D数据集上的准确率达到96.32%,比P4Transformer高出5.38%。此外,它在大规模基准测试中表现出最先进的性能,在NTU RGB+D 60跨视图协议下达到98.3%,在NTU RGB+D 120跨设置协议下达到95.6%。
•为了满足资源受限的工业应用场景中高效处理的实际需求,我们开发了一个轻量级变体Lig-SequentialPointNet++。与原始的SequentialPointNet++相比,这个轻量级变体在FLOPs上减少了6.15倍,参数压缩了17.73倍,大大降低了模型复杂性和计算负担,同时保持了竞争性的识别准确率。
本文的其余部分结构如下:第2节提供了相关工作的分析。第3节详细介绍了所提出的方法。第4节在四个公开可用的数据集上评估了所提出方法的识别性能,并通过各种消融实验和可视化验证了每个组件的有效性。最后是第5节。