用于2D多人体姿态估计的交叉自注意力特征融合模块

时间：2026年2月4日

来源：Signal Processing: Image Communication

编辑推荐：

多人姿态估计方法提出串行-并行跨注意力融合模块，通过双分支结构（压缩分支与保留分支）平衡计算效率与语义保留，有效捕捉多关节全局依赖关系。实验表明在CrowdPose和COCO数据集上AP指标分别达69.3%和71.9%，显著优于传统方法且鲁棒性更强。

广东技术师范大学计算机科学学院，中国广州

摘要

现有的基于注意力机制的人体姿态估计方法通过建模关键点及其周围像素的全局上下文来检测关节。这些方法通常计算复杂度较高，并且容易忽略关于姿态的关键语义信息。在本文中，我们提出了一种新颖的串行-并行交叉注意力融合模块，以捕捉多个人体关节之间的更丰富的结构相关性。在该模块中，设计了一个双分支注意力块。它可以在保持高分辨率细节的同时压缩通道或空间维度信息，有效降低计算复杂度并最小化语义损失。此外，所提出的交叉注意力融合策略为双分支通道注意力块和原始特征融合操作赋予了自注意力学习能力，从而有效捕捉多个身体关节之间的全局依赖关系。我们基于HRNet在CrowdPose和MS COCO数据集上进行了大量实验。实验表明，我们的方法优于类似方法，并且在姿态估计中对遮挡、变形和其他复杂场景具有更好的鲁棒性。

引言

多人姿态估计（MHPE）在交通导航[[1], [2], [3]]、行为分析[4,5]和自主系统[6,7]等应用中取得了显著成果。检测个体各个部分的关键点是MHPE的核心任务，这可以用来重建骨骼结构并分析人体的运动状态和姿态。然而，多个个体之间的身体重叠和关节遮挡会干扰现有MHPE算法中的关键点匹配。照明变化和杂乱背景也会严重影响这些算法的准确性和稳定性。这些复杂的场景挑战使得问题变得尤为困难。

现有的基于深度学习的多人姿态估计方法通常使用卷积神经网络（CNN）[[1], [2], [3], [4], [5], [6], [7], [8], [9], [10], [11], [12], [13], [14], [15], [16], [17]]来提取人体关节的深度特征，然后使用回归或检测来获取人体关节部分的关键点。由于卷积层数量的增加导致关节特征模糊，因此很容易忽略图像中小人体的局部细节。因此，一些方法通过结合注意力机制[[18], [19], [20], [21], [22], [23], [24], [25], [26], [27], [28], [29], [30], [31]]来增强不同尺度上多人姿态特征的表示。注意力机制可以通过选择重要细节来快速识别视觉任务的关键信息。例如，通道注意力和空间注意力被用来区分图像特征之间的关系，并在图像空间内提取相关信息；它们可以串联或并联使用。

基于注意力机制的MHPE方法需要表示关键点与周围像素之间的上下文关系。它强调加权求和像素之间的空间关系，并通常使用热图在图像中定位关键点。Xiao等人[18]提出了一种多上下文注意力，结合了全局注意力和身体部位注意力。Guillem等人[19]将注意力应用于具有最大注意力分数的关键点分组结果，以获得人体姿态。Chen等人[20]通过使用局部自注意力和通道分离卷积融合解决了局部特征信息的问题，同时通过双向交互分支增强了多维度的建模能力。视觉变换器（ViT）[26,27]利用三元组直接捕获图像内的两个不同空间位置的全局上下文信息。这些方法有效地提高了姿态关键点检测的准确性。

然而，基于注意力机制的人体姿态估计器仍然面临着在准确性、鲁棒性和实时性能之间取得平衡的困境。这个问题源于注意力模块中的像素级非局部加权操作，这会消耗大量的计算资源。尽管池化或减小通道大小可以减轻模型的复杂性，但往往会导致关键语义信息的丢失。此外，不同注意力融合策略的选择也会影响多人关键点的精确回归。为了解决这些挑战，本文介绍了一种创新的交叉融合注意力机制，有效平衡了高计算负载和语义保留之间的竞争需求。

本文处理了HRNet网络[9]输出的并行多尺度特征图像。首先，从通道和空间维度提出了一个双分支注意力结构。然后，使用串行-并行交叉融合注意力模块来获得具有全局依赖性的融合特征，用于多个姿态关键点的回归。总之，本工作的主要步骤如下。

•

我们提出了一个轻量级的双分支注意力结构，用于通道和空间维度。一个分支是压缩分支，用于压缩通道或空间维度以聚合重要特征；另一个分支是保留分支，用于处理输入的高分辨率图像以保留原始特征的语义信息。这种双分支结构使我们能够在保持参数数量较少的同时获得姿态特征和位置特征。

•

我们提出了一种新颖的串行-并行交叉注意力融合策略。双分支通道注意力块和原始特征分支构成了通道自注意力模块：压缩分支作为查询（Q），保留分支作为键（K），原始特征分支作为值（V），可以捕捉多个人体关节的全局依赖关系。随后，两个注意力块串联连接以融合通道之间的非线性关系和像素的空间依赖性。

•

我们通过在HRNet主干网络中插入所提出的模块，验证了在多个基准数据集（CrowdPose测试集、MS COCO val2017和test-dev2017集）上MHPE的性能得到了提升。通过广泛的消融研究，实验在CrowdPose测试数据集上获得了69.3%的AP，在具有复杂场景的COCO test-dev2017数据集上获得了71.9%的AP。

文章的组织结构如下。我们在第1节介绍研究背景，在第2节回顾相关工作。之后，第3节详细描述了所提出的方法。第4节给出了实验和比较结果。我们在第5节总结文章并讨论了未来的工作。

提出方法

所提出的MHPE方法的主要框架如图1所示，包括三个组成部分：HRNet主干网络、交叉注意力模块和关键点回归。并行网络HRNet[9]用于提取初始的多尺度特征，生成四个不同分辨率的特征图。为了适应不同尺度特征图之间的多样化语义信息，我们调整了HRNet[9]输出的多尺度特征图的大小，以使其对齐

数据集与指标

数据集：我们使用CrowdPose数据集和Microsoft COCO数据集来训练和验证我们的方法。CrowdPose数据集包含10K训练图像、2K验证图像和20K测试图像。COCO数据集包含标注有17个人体关键点的图像，由57K训练图像、5K验证图像和8K测试图像组成。在我们的实验中，我们从这两个数据集中选择验证集和测试集来评估我们模型的性能。

指标。我们的评估指标是

结论与未来工作

本文提出了一种2D姿态估计方法，该方法利用交叉注意力模块准确定位多个人体关节的关键点。我们首先设计了双分支通道和空间注意力块，这有助于压缩维度信息以提取关键特征，同时保持高分辨率细节。这避免了高计算复杂度，并最小化了语义信息的丢失。此外，本文还引入了串行-并行交叉注意力

致谢

本工作得到了广东省自然科学基金（2024A1515011971）、广东省高等教育重点领域专项（2022ZDZX1013, 2020ZDZX3077）、广东省研究生教育创新计划项目（2023JGXM_136）、国家自然科学基金（62072122）、广东省知识产权与大数据重点实验室（2018B030322016）以及广东省重点学科研究能力提升项目的支持

未引用参考文献

[50]

CRediT作者贡献声明

Jin Zhan：写作 – 审稿与编辑、监督、方法论、概念化。Zhenmeng Yue：写作 – 审稿与编辑、原始草稿撰写、验证、方法论、数据管理。Weili Tian：验证、调查、数据管理。Huimin Zhao：监督、概念化。Guiyuan Xie：验证、调查。Bo Hu：写作 – 审稿与编辑、方法论、形式分析。Fangyuan Lei：写作 – 审稿与编辑、可视化。Guozhu Liang：可视化、验证、数据管理