SequentialPointNet++：一种通过姿态和运动链融合实现强化学习的超点网络，用于3D动作识别

时间：2026年2月24日

来源：Information Fusion

编辑推荐：

针对3D点云序列时空建模的局限性，本文提出Reinforced-Hyperpoint网络（SequentialPointNet++），通过R-Hyperpoint生成器融合全局静态姿态与区域动态运动链，结合多阶段时序子动作解析模块，有效捕捉时空特征。实验在四个数据集上验证，精度最高达98.3%，优于P4Transformer等基线方法。

南京林业大学信息科学与技术及人工智能学院，南京，210037，中国

摘要

基于3D传感器获取的点云数据的人体动作识别已在健康监测、人机协作等领域得到广泛应用。这些动态应用场景本质上依赖于点云数据中丰富的时空融合信息来实现高精度的动态感知。然而，现有的点云序列建模方法难以同时考虑点云序列的结构特性和信息特性，从而导致无法消除时空纠缠，从而在捕捉运动时间演变的连贯性的同时保持主体空间结构信息的完整性。为了解决上述问题，我们提出了一种用于3D动作识别的强化超点网络，称为SequentialPointNet++。首先，我们生成了一种新的数据表示形式R-Hyperpoint，它可以有效地捕捉点云的多维空间信息和时间演化特征。R-Hyperpoint融合了整体的静态姿态单元和区域性的动态运动链，以全面表示人体动作。其次，考虑到R-Hyperpoint序列中的时间语义异质性，我们设计了一个多阶段时间子动作解析模块，以学习不同时间感知域中的子动作模式并进行加权融合，防止信息碎片化和歧义。在四个广泛使用的3D动作识别数据集上进行的广泛实验证明，SequentialPointNet++在3D人体动作识别方面取得了有竞争力的性能。我们的代码将很快在https://github.com/*/SequentialPointNet2上发布。

引言

在3D数据感知领域，3D传感器数据已成为实现高精度目标感知的核心载体，有效弥合了离散数据采集和连续动态场景理解之间的需求。点云由多种类型的3D传感器（如能够确保空间精度的LiDAR或能够提供RGB-D辅助属性的Kinect）生成，它们是集成了多维空间位置信息和强度、颜色等补充属性特征的离散3D空间点集合。当这些点云按时间维度排序形成连续的点云序列时，其本质是通过时空信息融合实现对观察目标的高保真几何动态表示和精细的形态描述。点云凭借其独特的时空数据表示能力和多维信息集成优势，已成为信息融合领域的重要研究对象。大量研究表明，点云序列在信息融合场景中具有丰富的应用价值，涵盖了自动驾驶环境感知[1]、基于VR的虚实融合交互训练[2]以及智能生产线中的多源质量检测[3]等技术领域。特别是在智能工业自动化中的人体动作识别动态应用场景中，点云序列能够准确捕捉人体的静态拓扑结构和动态运动轨迹，这直接支持了工业场景的情境感知需求。通过实时监控生产线上的异常人体动作，可以有效降低工作相关伤害的风险。

点云序列本质上具有稀疏结构和不规则分布的特点，同时缺乏明确的空间拓扑约束。所有这些因素共同给表示和建模点云序列内的时空关系带来了重大挑战。早期的研究[4]根据体素和点之间的相似性将点云序列转换为规则的、有序的体素序列，然后应用基于网格的卷积来提取运动特征。然而，体素化过程不可避免地引入了量化误差，从而导致人体几何信息的丢失。鉴于这些限制，研究人员致力于开发可以直接处理点云序列的深度学习架构，这些架构主要可以分为两类：（1）全程运动结构建模和（2）多阶段运动分解建模。对于全程运动时间结构的建模，Meteronet[5]采用全局时间维度下的点跟踪策略来感知局部空间运动变化。对于全程运动空间结构的建模，HyperpointNet[6]试图通过明确的空间-时间解耦直接编码全局空间静态外观，并推导出运动的时间演化过程。相比之下，多阶段运动分解建模方法[7]、[8]将运动分解为多个片段，并构建跨帧的时空点管来封装局部运动信息。在此基础上，最近的进展[9]、[10]将点时空卷积与Transformer架构或Mamba状态空间模型相结合，增强了捕捉更大动态场景中运动依赖性的能力。

尽管上述研究方法在人体动作识别方面取得了显著进展，但它们都未能充分考虑点云序列的固有双重特性：结构特性和信息特性。结构特性表现为空间维度的不规则性和无序性，而时间维度则表现出规律性和有序性[7]、[8]。在全程运动时间建模中，由于空间维度的不规则性和无序性，频繁的点跨帧流入或流出引起的异常扰动显著降低了关键运动转换的时间相位敏感性。此外，目前的全程运动空间建模方法通常依赖于孤立的姿态抽象范式，未能结合时间结构的规律性和有序性。因此，它们忽略了人体动作演变的连贯性和阶段性，最终导致无法充分探索身体各部位的细粒度语义相关性。从信息特性的角度来看，点云序列主要传递空间信息作为核心的区分元素，时间信息作为空间结构变化的补充线索[6]、[11]。这种时空信息不对称性要求在处理过程中最小化时空维度之间的相互干扰，以保持空间信息的完整性。尽管点时空卷积试图明确分离空间和时间维度以解决时空纠缠问题，但它仅限于局部邻域，并将运动划分为多个片段，这损害了空间结构表示的完整性和一致性。

为了解决这些限制，我们提出了SequentialPointNet++，这是一种基于姿态和运动链融合的强化超点网络。它包括两个核心模块：R-Hyperpoint生成器（RHG）模块和多阶段时间子动作解析（MTSP）模块。通过这两个模块的协同合作，SequentialPointNet++能够有效地捕捉复杂人体动作中的宏观姿态几何和微观运动细节，从而在3D动作识别任务中实现了显著的准确性提升。具体来说，R-Hyperpoint生成器模块产生了一种称为R-Hyperpoint的新点表示方法，它融合了每个时间戳的全局静态姿态摘要和区域动态运动链。如图1所示，RHG模块设计了一个双块架构：一个几何感知姿态建模块根据点云的信息特性来编码全局人体姿态，生成姿态单元；一个运动链感知动态传播块以点云的结构特性为核心入口点，通过捕捉关键肢体动态并推断时间关联关系来构建复杂多样的运动链。随后，R-Hyperpoint序列被输入到多阶段时间子动作解析模块中，该模块根据肢体的运动阶段属性将R-Hyperpoint序列适应性地划分为不同的时间感知域中的子动作。每个子动作模式都被解析以提供特定于粒度的语义，然后进行融合，以实现对人体运动的全面学习。

我们的主要贡献总结如下：

•

我们设计了一个R-Hyperpoint生成器模块，该模块由几何感知姿态建模块和运动链感知动态传播块组成。前者基于点云的信息特性进行建模，专门用于提取明确的姿态结构。后者关注结构特性，通过构建潜在的运动链来恢复细粒度的运动相关性。利用双块协作架构，RHG模块融合了空间结构和时间演化特征，生成统一的R-Hyperpoint表示，从而实现对人体动作的全面准确表示。

•

我们提出了一个多阶段时间子动作解析（MTSP）模块，以解决肢体运动之间的显著相位差异。MTSP模块将R-Hyperpoint序列解析为不同时间感知域中的子动作，以学习区分性的子动作特征。这些特征被加权并融合，从而有效描绘不同身体部位的具体运动模式。

•

我们提出了SequentialPointNet++，一种用于3D动作识别的强化超点网络。SequentialPointNet++在MSR Action3D数据集上的准确率达到96.32%，比P4Transformer高出5.38%。此外，它在大规模基准测试中表现出最先进的性能，在NTU RGB+D 60跨视图协议下达到98.3%，在NTU RGB+D 120跨设置协议下达到95.6%。

•

为了满足资源受限的工业应用场景中高效处理的实际需求，我们开发了一个轻量级变体Lig-SequentialPointNet++。与原始的SequentialPointNet++相比，这个轻量级变体在FLOPs上减少了6.15倍，参数压缩了17.73倍，大大降低了模型复杂性和计算负担，同时保持了竞争性的识别准确率。

本文的其余部分结构如下：第2节提供了相关工作的分析。第3节详细介绍了所提出的方法。第4节在四个公开可用的数据集上评估了所提出方法的识别性能，并通过各种消融实验和可视化验证了每个组件的有效性。最后是第5节。

章节片段

静态点云建模

由于静态点云具有高表示精度和强大的抗环境变化能力，它们在现代应用中得到了广泛的应用。它们在对象分类、部件分割和场景语义解析等任务中作为直接的感觉输入[12]、[13]、[14]。研究人员对开发静态点云的深度学习技术表现出浓厚的兴趣。现有方法可以根据处理方法分为两类：基于体素的

方法论

在本节中，我们详细介绍了所提出的SequentialPointNet++网络。如图2所示，提出了一个R-Hyperpoint生成器模块，该模块通过几何感知姿态建模块和运动链感知动态传播块生成R-Hyperpoint，融合了整体姿态结构和区域运动链信息。

实验

在本节中，我们首先详细介绍了实验设置，包括数据集预处理、参数配置和训练协议。接下来，我们将我们的SequentialPointNet++与现有的最先进方法在MSR Action3D [37]、UTD-MHAD [38]、NTU RGB+D 60 [39]和NTU RGB+D 120 [40]数据集上进行比较，并进行了直观的可视化。最后，我们进行了系统的消融研究，以剖析SequentialPointNet++中各个组件的贡献

结论

在本文中，我们提出了一种名为SequentialPointNet++的强化超点网络。该网络通过融合姿态和运动链，实现了对基于点云的人体动作的全面理解。R-Hyperpoint生成器模块通过融合全局静态姿态结构和区域动态语义运动链，有效表示了人体动作的完整空间配置和时间连贯的演化。

CRediT作者贡献声明

Xing Li：资源、方法论、形式分析、数据整理、概念化。Zhaoyu Chen：方法论。Ge Gao：写作——原始草案、方法论。Liang Qi：软件、资源。Qiaolin Ye：可视化、验证、概念化。Maocheng Zhao：可视化、验证、监督。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部