SGSPose:基于脉冲图神经网络与SE(3)等变学习的神经形态几何6D位姿估计新方法

时间:2026年1月19日
来源:IEEE Aerospace and Electronic Systems Magazine

编辑推荐:

本文推荐一项解决复杂室内环境下6D相机重定位难题的研究。研究人员开发了名为SGSPose的新型架构,该架构创新性地融合了脉冲神经网络(SNN)的事件驱动特征编码、图神经网络(GNN)的关系推理以及SE(3)等变李代数优化技术。实验结果表明,该方法在7Scenes数据集上实现了亚米级的平移精度(误差降低超70%),旋转误差在8-21°之间,ADD-S Acc@0.5最高达0.962,显著提升了位姿估计的鲁棒性和能效,为机器人、AR等领域的精确空间感知提供了新思路。

广告
   X   

在机器人、增强现实和自主系统领域,精确理解物体或相机在三维空间中的位置和方向——即6D位姿估计——是一项基础而关键的能力。然而,现实场景的复杂性,如遮挡、杂乱、无纹理表面和光照变化,常常让传统计算机视觉方法表现不佳。尽管基于卷积神经网络(CNN)的直接回归方法取得了显著进展,但它们通常需要大量标注数据和计算资源,并且在存在遮挡或模糊视觉线索时泛化能力有限。这催生了对更鲁棒、更高效的新方法的迫切需求。
正是在这一背景下,研究人员在《IEEE Access》上发表了题为“SGSPose: Neuromorphic-Geometric 6D Pose Estimation Through Spiking Graph Neural Networks and SE(3)-Equivariant Learning”的论文。该研究旨在开发一种能够克服上述挑战的6D相机重定位技术。
为了回答如何实现鲁棒且高效的6D位姿估计这一问题,研究团队设计并实现了SGSPose这一新颖架构。该架构的核心在于将三种前沿技术进行融合:首先,利用脉冲神经网络(SNN)模拟生物神经元的事件驱动通信方式,将输入图像转换为时间编码的脉冲序列,从而高效捕获时序动态和运动线索,并显著降低功耗。其次,通过图神经网络(GNN)对场景中的空间或特征关系进行建模,将图像特征构建成图结构,节点代表局部特征,边编码空间关系,从而增强模型在遮挡或局部视图下的推理能力。最后,引入SE(3)-等变几何学习,确保网络的预测与三维空间中的刚性变换(旋转和平移)保持一致,从而提升模型的泛化能力和几何一致性。
SGSPose的流程主要包括几个关键步骤:SNN编码器将RGB图像转换为脉冲序列;可学习时序池化聚合时间信息;脉冲到几何特征转换产生标量(不变)和矢量(等变)特征;基于这些特征构建图结构;SE(3)-等变图神经网络进行消息传递和特征更新,保持几何一致性;最后通过位姿回归层输出相机的3D平移和旋转,并通过正交化确保旋转矩阵的有效性。模型使用结合了平移损失(Smooth L1)、旋转损失(SO(3)上的测地距离)和ADD-S损失的综合损失函数进行训练。
研究结果
在7Scenes数据集上的性能评估: 研究在7Scenes数据集的多个场景(Chess, Office, Pumpkin, Red Kitchen, Fire, Stairs)上对SGSPose进行了全面评估。结果表明,SGSPose在平移精度上取得了突破性进展。如表1所示,其平均平移误差远低于所有对比基线(PoseNet, MapNet, LSTM-Pose, DSO),在所有场景中均低于0.06米,尤其在Chess场景达到了0.019米,相比PoseNet误差降低超过90%,相比MapNet提升76%,相比LSTM-Pose提升60%。这证明了SGSPose在估计相机空间位置方面的卓越性能。
旋转精度分析: 在旋转估计方面,SGSPose的表现具有竞争力但存在差异。如表2所示,其平均旋转误差范围在8.3°(Chess)到21.3°(Fire)之间。虽然在某些场景(如Stairs, 13.7°)与LSTM-Pose相当,但并未超越MapNet在多个场景上达到的最佳旋转精度(如Chess 3.25°)。分析认为,SNN编码器的离散脉冲特性在捕获高精度连续旋转值时引入了量化噪声,导致旋转回归精度受限,这体现了SNN能效优势与旋转估计精度之间存在的权衡。
ADD-S精度验证: 除了传统误差指标,研究还报告了ADD-S Acc@0.5(预测位姿下场景点平均3D距离小于0.5米的比例),该指标更能反映位姿估计的实用价值。SGSPose在各场景的ADD-S精度分别为:Chess (0.962), Office (0.680), Pumpkin (0.687), Red Kitchen (0.599), Fire (0.774), Stairs (0.739)。这些结果,尤其是在挑战性场景如Fire和Stairs上的良好表现,表明SGSPose不仅降低了全局位姿误差,而且能产生物理上合理且一致的位姿预测。
场景特异性讨论: 针对不同场景的特性进行了深入分析。在Chess、Office、Pumpkin和Red Kitchen等场景中,SGSPose展现了强大的泛化能力,位姿估计精度达到或超过了直接回归方法的先进水平。在具有视觉相似性的Fire场景,虽然平移误差极低(3.9厘米),但旋转误差(21.3°)相对较高,这可能源于该场景下视角变化的挑战性以及方法未使用专门的旋转增强或间接对应点损失。在最具挑战性的Stairs场景,SGSPose仍能达到5.5厘米平移误差和13.7°旋转误差,证明了其架构的有效性。
结论与意义
本研究提出的SGSPose框架,通过有机整合脉冲神经网络的事件驱动效率、图神经网络的关系推理能力以及SE(3)-等变学习的几何一致性,为6D相机重定位提供了一种新颖且高效的解决方案。实验充分验证了其在复杂室内环境下,特别是在平移估计方面,显著优于现有主流方法,确立了新的直接回归基准。尽管在极端挑战性场景下的旋转精度仍有提升空间,但SGSPose统一架构的成功验证了受生物启发的几何感知深度学习框架在推动下一代6D位姿估计技术发展方面的巨大潜力。这项研究为机器人、增强现实和自动驾驶等领域实现更精确、更鲁棒、更节能的空间感知系统开辟了新的途径。
(论文解读文章结束)

生物通微信公众号
微信
新浪微博


生物通 版权所有