一种结合多阶段交互的语义-结构特征学习方法，用于3D点云配准

生物通首页 > 今日动态 > 正文

一种结合多阶段交互的语义-结构特征学习方法，用于3D点云配准

时间：2026年3月29日

来源：Pattern Recognition

编辑推荐：

点云配准通过融合语义-结构特征与多阶段交互机制提升精度，提出SFLMI框架，包含自我纠正语义学习、邻域感知结构聚合模块，结合双向特征交互和双视角Transformer增强全局上下文感知。

曹飞龙|邱桥艳|叶海亮|卢柯

中国金华浙江师范大学数学科学学院

摘要

点云配准的目标是将来自不同视角的点云数据精确对齐到统一的坐标系统中。然而，大多数现有方法在特征提取过程中难以充分利用点云中的丰富语义信息和复杂结构特征，要么过度强调语义特征，要么仅关注几何描述符而未明确建模语义线索。此外，源点云和目标点云之间的特征交互不足可能导致匹配结果不明确。因此，本文提出了一种新的点云配准框架，称为具有多阶段交互的语义-结构特征学习（SFLMI）。具体而言，设计了一种局部语义-结构特征提取器，该提取器结合了自我校正机制和邻居感知聚合方法来获得更丰富的局部特征描述符。接下来，双向特征交互模块通过在一个加权二分图上传播信息来更新每个点的特征，从而加强相似点对之间的关系。通过依次堆叠这两个模块，可以学习到更具区分性的特征。为了在特征匹配过程中增强点云之间的交互，引入了一个双视图协作Transformer模块，该模块结合了局部和全局相似性得分来感知上下文信息。实验表明，SFLMI在公共数据集上取得了出色的性能，并且计算效率令人满意。

引言

3D点云配准是许多技术发展和应用的基础，例如自动驾驶[1]、姿态估计[2]以及同时定位与映射[3]。其目的是将来自不同设备的点云数据转换到相同的坐标系统中。其本质在于找到最佳变换，以实现两个未知对应关系的点云之间的最佳对齐。然而，点云经常受到各种噪声干扰或物体遮挡的影响，这大大增加了检测正确对应关系的难度。因此，研究点云配准任务仍然具有挑战性。

深度学习的快速发展为解决3D点云配准这一复杂问题提供了新的视角。通常，基于深度学习的点云配准包括几个阶段：特征提取、特征匹配和变换估计。其中，特征提取从原始点云数据中生成具有区分性的特征。自从出现PointNet[4]和PointNet++[5]等特征学习方法以来，端到端的基于深度学习的点云配准取得了显著进展。一些研究[6],[7]将它们整合到各种框架中以构建可训练的深度网络。此后，随着图神经网络（GNNs）[8],[9],[10]的兴起，研究人员逐渐认识到GNNs在处理不规则点云数据方面的显著优势。通过将点云数据建模为图结构，GNNs能够有效捕捉点之间的复杂关系。目前，许多点云配准方法采用动态图CNN（DGCNN）[11]作为特征提取器，例如深度最近点（DCP）[12]和部分配准网络（PRNet）[13]。此外，一些工作[14],[15],[16]通过构建具有几何属性的特征描述符来增强捕捉局部结构的能力。尽管这些特征提取方法表现出色，但它们通常只分析单个点云，而不考虑两个点云之间的相互感知。

为了更好地利用两个点云之间的互信息，研究人员探索了结合特征交互的点云配准方法。Xu等人[17]通过连接两个点云的逐点特征实现了特征的早期相互增强。然而，这种简单的连接方法假设所有点都同等相关，并忽略了相似区域之间的进一步交互。一些后续工作[18],[19]适应性地聚合了另一个点云中的相似特征以促进信息融合。此外，许多现有研究[20],[21],[22]采用了多头自注意力和交叉注意力来进行上下文特征交互。实际上，点云配准的准确性取决于正确的对应关系，这通常是通过高效的特征提取和匹配模块来实现的。然而，大多数基于学习的方法面临一些限制。

•

DGCNN被广泛用作点云配准的特征提取器。然而，它倾向于过度强调显著的语义特征，从而导致信息丢失。相反，一些方法则主要关注几何描述符，而大大忽略了语义信息。因此，需要更全面的特征表示方法，能够有效捕捉结构和语义线索。

•

一些研究主要在特征匹配阶段允许信息交互，而对特征提取阶段的关注相对较少。由于缺乏相互感知，从单个点云中提取的初始特征难以提供清晰的对应关系。因此，探索两个点云之间的早期信息交互是有价值的。

•

一些方法利用Transformer架构来增强点云之间的交互。尽管Transformer中的注意力机制在捕捉全局上下文信息方面有效，但在检测细微的局部差异方面仍存在局限性。

为了缓解这些限制，本文提出了一种具有多阶段交互的语义-结构特征学习（SFLMI）用于点云配准。其核心组件是局部语义-结构特征提取器（LSFE），包含自我校正的语义特征学习（SSFL）分支和邻居感知的结构特征学习（NSFL）分支。具体来说，SSFL根据从重构映射操作获得的特征与原始特征之间的差异动态调整学习过程。通过这种自我校正机制，语义特征的表示能力得到持续优化。同时，NSFL利用中心点及其邻居之间的坐标和特征表示差异来学习注意力权重，这些权重用于加权聚合以获得结构特征描述符。这样，局部几何形状的细节得到了很好的反映。通过融合这两种特征，获得了有效利用语义信息和几何结构的局部特征表示。接下来，在特征提取阶段引入了双向特征交互（BFI）模块。源点云和目标点云被构建为一个二分图，在其中我们根据点对的相似性得分进行逐点交互。更新每个点的特征后，相似点对之间的关系得到加强，而不相似点对之间的差异变得更加明显。此外，考虑到仅使用局部特征进行变换估计时的匹配不确定性，提出了一个双视图协作Transformer（DVCT）模块。在经典Transformer框架的基础上，我们结合了局部和全局相似性度量来感知另一个点云的上下文信息，从而增强了两个点云之间的交互。总体而言，我们实现了更高效的特征提取和匹配，显著提高了点云配准的准确性和鲁棒性。本研究的主要贡献总结如下。

•

提出了一种新的SFLMI框架用于点云配准，该框架包含三个关键模块：LSFE模块、BFI模块和DVCT模块。通过提取更具区分性的特征表示，该框架建立了更准确的对应关系，有效提升了点云配准性能。

•

设计了一种LSFE模块，通过自我校正机制和邻居感知聚合完全整合了点云的语义信息和几何结构，获得了更丰富的局部特征描述符。

•

引入了BFI模块，通过相互感知来增强相似点对之间的连接，改进了局部特征的表示。

•

开发了DVCT模块，通过融合局部和全局视角的相似性得分来加强点云之间的交互。

本文的其余部分组织如下。第2节简要回顾了相关工作。第3节描述了所提出方法的详细信息。第4节展示了实验结果。第5节总结了本研究并展望了未来的工作。

章节片段

基于优化的传统配准方法

基于优化的方法是3D点云配准的早期技术。迭代最近点（ICP）[23]通过重复迭代计算变换，以最小化对应点之间的误差。然而，其性能高度依赖于初始设置，在处理含有大量噪声的点云时效果不佳。此后，提出了几种基于ICP的变体[24],[25]，但对初始估计的依赖仍然存在。

架构

图1展示了所提出的SFLMI用于点云配准的整个流程。给定源点云

X = {x_{i} \in R^{3} ∣ i = 1, 2,\dots,N}

和目标点云

Y = {y_{j} \in R^{3} ∣ j = 1,2,\dots,M}

，其中N和M分别是源点云和目标点云中的点数。配准的目的是计算旋转矩阵R ∈ SO(3)和平移向量

t \in R^{3}

，以便将变换后的源点云与目标点云对齐。本文旨在设计一种特征

数据集

为了全面评估所提出的SFLMI用于点云配准的性能，使用三个公共数据集进行了实验。

1) ModelNet40 [44]。这个数据集是一个广泛使用的3D点云数据集，特别适合点云配准。它包含12,311个CAD模型，涵盖40个不同类别，包括飞机、椅子和花瓶等常见物体。这些数据分为9,843个训练样本和2,468个测试样本。与[38]类似，所有

结论

本文提出了一种SFLMI框架用于点云配准。其核心是开发了一个LSFE模块，该模块结合了SSFL分支和NSFL分支来生成丰富的局部特征描述符。为了进一步改进特征表示，我们设计了一个BFI模块，通过在加权二分图中传播信息来促进相似点对之间的相互感知。之后，我们依次堆叠LSFE和BFI模块以提取更具区分性的特征