多人姿态估计(MHPE)在交通导航[[1], [2], [3]]、行为分析[4,5]和自主系统[6,7]等应用中取得了显著成果。检测个体各个部分的关键点是MHPE的核心任务,这可以用来重建骨骼结构并分析人体的运动状态和姿态。然而,多个个体之间的身体重叠和关节遮挡会干扰现有MHPE算法中的关键点匹配。照明变化和杂乱背景也会严重影响这些算法的准确性和稳定性。这些复杂的场景挑战使得问题变得尤为困难。
现有的基于深度学习的多人姿态估计方法通常使用卷积神经网络(CNN)[[1], [2], [3], [4], [5], [6], [7], [8], [9], [10], [11], [12], [13], [14], [15], [16], [17]]来提取人体关节的深度特征,然后使用回归或检测来获取人体关节部分的关键点。由于卷积层数量的增加导致关节特征模糊,因此很容易忽略图像中小人体的局部细节。因此,一些方法通过结合注意力机制[[18], [19], [20], [21], [22], [23], [24], [25], [26], [27], [28], [29], [30], [31]]来增强不同尺度上多人姿态特征的表示。注意力机制可以通过选择重要细节来快速识别视觉任务的关键信息。例如,通道注意力和空间注意力被用来区分图像特征之间的关系,并在图像空间内提取相关信息;它们可以串联或并联使用。
基于注意力机制的MHPE方法需要表示关键点与周围像素之间的上下文关系。它强调加权求和像素之间的空间关系,并通常使用热图在图像中定位关键点。Xiao等人[18]提出了一种多上下文注意力,结合了全局注意力和身体部位注意力。Guillem等人[19]将注意力应用于具有最大注意力分数的关键点分组结果,以获得人体姿态。Chen等人[20]通过使用局部自注意力和通道分离卷积融合解决了局部特征信息的问题,同时通过双向交互分支增强了多维度的建模能力。视觉变换器(ViT)[26,27]利用三元组直接捕获图像内的两个不同空间位置的全局上下文信息。这些方法有效地提高了姿态关键点检测的准确性。
然而,基于注意力机制的人体姿态估计器仍然面临着在准确性、鲁棒性和实时性能之间取得平衡的困境。这个问题源于注意力模块中的像素级非局部加权操作,这会消耗大量的计算资源。尽管池化或减小通道大小可以减轻模型的复杂性,但往往会导致关键语义信息的丢失。此外,不同注意力融合策略的选择也会影响多人关键点的精确回归。为了解决这些挑战,本文介绍了一种创新的交叉融合注意力机制,有效平衡了高计算负载和语义保留之间的竞争需求。
本文处理了HRNet网络[9]输出的并行多尺度特征图像。首先,从通道和空间维度提出了一个双分支注意力结构。然后,使用串行-并行交叉融合注意力模块来获得具有全局依赖性的融合特征,用于多个姿态关键点的回归。总之,本工作的主要步骤如下。
•我们提出了一个轻量级的双分支注意力结构,用于通道和空间维度。一个分支是压缩分支,用于压缩通道或空间维度以聚合重要特征;另一个分支是保留分支,用于处理输入的高分辨率图像以保留原始特征的语义信息。这种双分支结构使我们能够在保持参数数量较少的同时获得姿态特征和位置特征。
•我们提出了一种新颖的串行-并行交叉注意力融合策略。双分支通道注意力块和原始特征分支构成了通道自注意力模块:压缩分支作为查询(Q),保留分支作为键(K),原始特征分支作为值(V),可以捕捉多个人体关节的全局依赖关系。随后,两个注意力块串联连接以融合通道之间的非线性关系和像素的空间依赖性。
•我们通过在HRNet主干网络中插入所提出的模块,验证了在多个基准数据集(CrowdPose测试集、MS COCO val2017和test-dev2017集)上MHPE的性能得到了提升。通过广泛的消融研究,实验在CrowdPose测试数据集上获得了69.3%的AP,在具有复杂场景的COCO test-dev2017数据集上获得了71.9%的AP。
文章的组织结构如下。我们在第1节介绍研究背景,在第2节回顾相关工作。之后,第3节详细描述了所提出的方法。第4节给出了实验和比较结果。我们在第5节总结文章并讨论了未来的工作。