NovelPoseNet：为绝对和相对的单目3D人体姿态估计合成新的2D姿态视图

生物通首页 > 今日动态 > 正文

NovelPoseNet：为绝对和相对的单目3D人体姿态估计合成新的2D姿态视图

时间：2026年2月8日

来源：Pattern Recognition Letters

编辑推荐：

单目3D姿态估计通过多模态ResNet-Transformer框架合成新视角2D姿态并融合三角化获得高精度3D坐标，解决了深度歧义问题，在Human3.6M和3DHP数据集上达到SOTA性能。

Avinash Upadhyay | Ankit Shukla | Manoj Sharma

班尼特大学，大诺伊达，高塔姆佛陀纳加尔，201310，北方邦，印度

摘要

单目3D人体姿态估计旨在从单张2D图像中恢复人的3D关节坐标，这一任务由于图像投影过程中深度线索的丢失而变得极其困难。为了解决由此产生的深度歧义，我们提出了NovelPoseNet，这是一个多模态的ResNet–Transformer框架，它可以根据学习到的2D姿态特征和假设的相机外部参数，从未见过的视角明确生成新的2D姿态。与以往将多视图一致性作为监督约束的方法不同，NovelPoseNet能够从新的相机视角合成明确的2D姿态表示，从而实现从单张图像进行真正的多视图三角测量。通过几何三角测量融合这些合成视图，可以得到重建的3D姿态，从而获得绝对和相对的3D关节位置。在Human3.6M和MPI-INF-3DHP数据集上的广泛实验表明，NovelPoseNet的性能达到了领先水平，超越了现有的基于重投影和合成的方法。

引言

3D人体姿态估计是计算机视觉中的一个基本问题，在动作识别、人机交互、虚拟现实和运动分析等多个领域都有应用。在不同的场景中，单目3D人体姿态估计是最具挑战性和实用性的一种，因为它旨在从单张RGB图像中恢复人体关节的完整3D坐标。然而，这个问题本质上是病态的，因为有无穷多的3D姿态可以投影到图像平面上的同一个2D姿态上。这是因为一条射线上有无限多的点，而所有这些点都落在一个相机传感器的像素上，导致一条射线上有无限多的深度点。因此，需要额外的信息或假设来解决这种深度歧义。

为了解决深度歧义问题，一些先前的工作将多视图几何一致性纳入了单目3D姿态估计中。受到经典摄影测量的启发[1]，这些方法利用可用的多视图数据或学习跨视图关系，对2D到3D的提升过程施加极线或重投影约束。例如[2]、[3]、[4]、[5]、[6]等方法确保从不同相机视角预测的3D姿态在重投影到2D时保持一致，从而利用多视图几何作为弱监督信号。一些模型[4]、[6]甚至尝试在训练过程中联合推断相机参数以增强这种一致性。然而，这些方法并不合成或生成新的视图；相反，它们使用现有的或估计的视图关系来规范3D估计过程。因此，这些方法中的多视图约束是一种监督信号，而不是生成机制。

我们通过引入NovelPoseNet来填补这一空白，该框架根据假设的相机外部参数[R|t]明确合成新的视图2D姿态，然后对这些合成视图进行三角测量，从而从单张图像中恢复3D关节。在已知相机内部参数的情况下，我们生成同一对象从未见过的视角看起来的物理上合理的2D投影，使得无需多个物理相机或同步拍摄即可进行多视图几何推理。在架构上，NovelPoseNet结合了ResNet编码器-解码器和一个基于相机姿态的Transformer。编码器处理输入图像，解码器预测其2D姿态；编码器的潜在特征作为键/值，而Transformer接收目标视图的外部参数[R|t]作为查询，以合成相应的新的视图2D姿态。我们通过多个合成视图进行三角测量，以获得准确的绝对和相对3D关节坐标。训练分阶段进行，使用平均每个关节位置误差（MPJPE）和重投影损失来监督新视图合成和3D重建（见第3节）。据我们所知，之前的工作没有明确生成用于基于三角测量的新视图2D姿态，这标志着从仅基于重投影或一致性的方法的概念转变，并通过聚合多个合成视图提高了对遮挡和极端姿态的鲁棒性。

我们在Human3.6M [7]和MPI-INF-3DHP（3DHP）[8]数据集上评估了我们的方法。在这两个数据集上，我们的方法都取得了领先的结果，甚至优于一些最先进的方法。

本工作的主要贡献可以总结如下：

•

我们提出了一种新的方法来解决单目3D姿态估计问题，即利用视图信息作为先验的新姿态合成方法。

•

一种新的多模态ResNet-Transformer网络，用于从2D姿态潜在信息和假设的相机参数合成新的姿态。

•

使用基于三角测量的方法从单目图像生成的新姿态重建3D姿态。

•

从单目图像估计绝对3D姿态。

为了全面了解所提出架构的贡献，进行了全面的消融研究，研究了每个组件对网络性能的影响。这项分析提供了对所提出设计选择有效性的洞察。此外，还进行了交叉评估实验，以评估网络在不同场景下的泛化能力。为了进一步提高所提出方法的鲁棒性，讨论了潜在的故障情况以及在未来工作中解决这些问题的策略。

部分摘录

单目3D人体姿态估计

由于深度歧义，单目3D人体姿态估计本质上是病态的：单个2D投影可以映射到多个3D配置中，其中许多配置违反了人体运动学约束和关节限制。当前的单人方法通常分为（i）图像到3D回归和（ii）2D到3D提升。图像到相对3D的方法直接从RGB图像[9]、[10]、[11]、[12]（例如，骨骼感知回归[10]、体积似然[9]）中推断3D关节，但通常

方法论

我们的网络利用多个视图之间的视图变换信息[R|t]和2D姿态潜在空间，从变换后的视角合成新的2D姿态。[R|t]独立于相机的内部属性，允许任何相机根据其在空间中的位置拥有这些变换。通过[R|t依赖的新姿态合成后，可以使用[1]中描述的几何方法进行三角测量，以估计3D姿态点。

数据集

我们在Human3.6m [7]和MPI-INF-3DHP[8]（3DHP）数据集上训练和评估了所提出的架构。这两个数据集广泛用于3D人体姿态估计的训练和评估。它们提供了时间对齐的多视图图像以及相应的2D姿态和3D姿态注释。这些数据集还包括相机的内在和外部参数。Human3.6m数据集包含四个相机视图，而3DHP数据集提供多达八个相机视图。