3D人体姿态估计是计算机视觉中的一个基本问题,在动作识别、人机交互、虚拟现实和运动分析等多个领域都有应用。在不同的场景中,单目3D人体姿态估计是最具挑战性和实用性的一种,因为它旨在从单张RGB图像中恢复人体关节的完整3D坐标。然而,这个问题本质上是病态的,因为有无穷多的3D姿态可以投影到图像平面上的同一个2D姿态上。这是因为一条射线上有无限多的点,而所有这些点都落在一个相机传感器的像素上,导致一条射线上有无限多的深度点。因此,需要额外的信息或假设来解决这种深度歧义。
为了解决深度歧义问题,一些先前的工作将多视图几何一致性纳入了单目3D姿态估计中。受到经典摄影测量的启发[1],这些方法利用可用的多视图数据或学习跨视图关系,对2D到3D的提升过程施加极线或重投影约束。例如[2]、[3]、[4]、[5]、[6]等方法确保从不同相机视角预测的3D姿态在重投影到2D时保持一致,从而利用多视图几何作为弱监督信号。一些模型[4]、[6]甚至尝试在训练过程中联合推断相机参数以增强这种一致性。然而,这些方法并不合成或生成新的视图;相反,它们使用现有的或估计的视图关系来规范3D估计过程。因此,这些方法中的多视图约束是一种监督信号,而不是生成机制。
我们通过引入NovelPoseNet来填补这一空白,该框架根据假设的相机外部参数[R|t]明确合成新的视图2D姿态,然后对这些合成视图进行三角测量,从而从单张图像中恢复3D关节。在已知相机内部参数的情况下,我们生成同一对象从未见过的视角看起来的物理上合理的2D投影,使得无需多个物理相机或同步拍摄即可进行多视图几何推理。在架构上,NovelPoseNet结合了ResNet编码器-解码器和一个基于相机姿态的Transformer。编码器处理输入图像,解码器预测其2D姿态;编码器的潜在特征作为键/值,而Transformer接收目标视图的外部参数[R|t]作为查询,以合成相应的新的视图2D姿态。我们通过多个合成视图进行三角测量,以获得准确的绝对和相对3D关节坐标。训练分阶段进行,使用平均每个关节位置误差(MPJPE)和重投影损失来监督新视图合成和3D重建(见第3节)。据我们所知,之前的工作没有明确生成用于基于三角测量的新视图2D姿态,这标志着从仅基于重投影或一致性的方法的概念转变,并通过聚合多个合成视图提高了对遮挡和极端姿态的鲁棒性。
我们在Human3.6M [7]和MPI-INF-3DHP(3DHP)[8]数据集上评估了我们的方法。在这两个数据集上,我们的方法都取得了领先的结果,甚至优于一些最先进的方法。
本工作的主要贡献可以总结如下:
•我们提出了一种新的方法来解决单目3D姿态估计问题,即利用视图信息作为先验的新姿态合成方法。
•一种新的多模态ResNet-Transformer网络,用于从2D姿态潜在信息和假设的相机参数合成新的姿态。
•使用基于三角测量的方法从单目图像生成的新姿态重建3D姿态。
•从单目图像估计绝对3D姿态。
为了全面了解所提出架构的贡献,进行了全面的消融研究,研究了每个组件对网络性能的影响。这项分析提供了对所提出设计选择有效性的洞察。此外,还进行了交叉评估实验,以评估网络在不同场景下的泛化能力。为了进一步提高所提出方法的鲁棒性,讨论了潜在的故障情况以及在未来工作中解决这些问题的策略。