MN-AQA：用于可解释跳水评分的多阶段神经符号动作质量评估

时间：2026年4月24日

来源：Pattern Recognition

编辑推荐：

提出MN-AQA多阶段神经符号框架，通过姿态恢复模块解决复杂视觉条件下的关键点漂移问题，阶段条件编码器建模动作阶段语义，混合推理机制动态融合神经特征与符号规则，实现可解释的评分与多维度输出。实验在MTL-AQA数据集上验证其Spearman相关系数达0.89，MAE 0.087，RMSE 0.132，优于现有基线方法。

桂慧琳|胡冰莹|赵一轩|舒向波|曹美琪|王正

江苏科技大学自动化学院，中国江苏省镇江市212100

摘要

动作质量评估（AQA）旨在定量评估跳水等技术运动中的表现质量。大多数现有的端到端方法仅使用裁判的总体评分作为监督信号，并直接对最终得分进行回归分析，这使得评分机制成为一个“黑箱”，容易受到主观偏见和注释噪声的影响；同时，在复杂的视觉条件下，关键点的不稳定性以及阶段语义建模的不足阻碍了阶段级别的归因和可审查的解释；基于规则的方法在端到端优化方面的难度以及纯深度学习方法的可解释性有限，进一步加剧了这些问题。为了解决这些限制，本文提出了MN-AQA，这是一个多阶段的神经符号动作质量评估框架，它通过结合从视频输入中提取的视觉特征和符号规则来集成多模态推理，从而实现可解释和可追溯的输出。具体来说，MN-AQA首先引入了姿态恢复模块（PRM），以提高在遮挡、运动模糊和极端姿势下的姿态一致性和运动表示的可靠性。其次，它采用了相位条件编码器（PCE）来明确编码动作阶段的语义，以符合评分标准并支持阶段级别的归因。最后，它提出了混合推理机制（HRM），该机制将基于规则的符号评分与神经特征融合，并根据规则的可用性自适应选择推理分支，从而在端到端可训练性和规则级别可解释性之间取得平衡。在MTL-AQA数据集上的实验表明，MN-AQA取得了0.89的Spearman相关性、0.087的MAE和0.132的RMSE，优于代表性的端到端基线方法，同时提高了规则的一致性和可解释性。

引言

随着计算机视觉在体育训练和技能评估中的广泛应用，基于视频的动作分析逐渐成为辅助教练和裁判的重要工具[1]，[2]。在跳水和体操等技术敏感的项目中，动作质量评估（AQA）可以从运动员的连续动作中提取信息性线索，并输出定量评分，支持技术纠正和表现评估[3]，[4]。对于实际应用而言，理想的AQA系统不仅应具备接近人类裁判的预测准确性，还应在复杂的比赛环境中保持稳定，同时提供清晰的评分证据和可追溯、可审查的决策过程，从而使评估更加透明和可信（见图1）。

最近的研究开始采用深度学习模型进行AQA，并使用大量的历史裁判评分数据进行端到端训练[5]。主流方法通常将AQA视为一个回归问题[6]，主要目标是减少预测评分与裁判评分之间的差异[7]。这种性能提升主要归因于两个因素：（i）大规模裁判评分数据的可用性，使得端到端拟合成为可能；（ii）深度模型能够从全局视频表示中回归出最终评分。然而，大多数AQA方法仍然从全局视频嵌入中回归出一个单一的标量评分，这只能弱化阶段级别结构和特定维度的技术线索。因此，这些模型往往无法提供清晰的评分理由和错误定位，评分过程表现出强烈的“黑箱”特性，这对于需要透明度和可审计性的细粒度训练场景来说是不足的[8]，[9]，[10]。因此，这就提出了一个问题：我们是否已经完全对齐了AQA模型所感知的内容和裁判所评估的内容，从而使评分逻辑变得透明和可信。

主要挑战在于特征表示的不可靠性和评估过程的不透明性。作为AQA系统中的基本组成部分，基于姿态的特征在复杂的视觉条件下往往不稳定，端到端的评分流程通常缺乏透明和可审查的推理。尽管高分辨率网络和基于Transformer的姿态估计器在多个基准测试中实现了接近人类注释的准确性[11]，[12]，但跳水视频不可避免地包含水花遮挡、自我遮挡和运动模糊，这可能导致关键点漂移甚至结构失效，从而增加最终评分的不确定性。现有方法通常通过时间过滤或图卷积约束来细化关键点[11]，这可以在一定程度上平滑抖动并纠正局部结构，但当存在多种复杂错误模式时，单一的细化机制难以迅速和全面地响应。专家混合模型在建模异构分布和多样化的错误模式方面具有天然优势[13]，但目前的研究主要集中在通用视觉任务上，对姿态细化场景的系统探索仍然有限[14]，[15]，这使得数据级别的可靠性成为AQA系统整体可信度的持续瓶颈。

在此基础上，特征推理和评分过程的可解释性也面临类似的挑战。实际上，人类裁判在评估表现时并不完全依赖全局印象；相反，他们根据阶段结构的执行（如起跳、飞行、旋转和入水）以及相关的技术细节来做出决策。这要求模型不仅能够可靠地感知运动线索，还能够与阶段语义对齐，并提供可追溯的评分逻辑。然而，大多数现有的端到端方法通过回归将全局视频特征压缩为一个标量评分，将评分机制封装在一个“黑箱”中，这使得技术线索难以与人类认知对齐，多维评分的可解释性较弱。为了缓解这些限制，神经符号融合被探索为一个有前景的方向，它结合了神经网络的特征学习能力和符号系统的逻辑透明度，显示出在视觉推理任务中提高准确性和可解释性的潜力[16]，[17]。一些研究将逻辑规则或知识图谱嵌入到模型架构中，使模型在保持强大预测性能的同时产生可检查的推理链[18]。尽管如此，AQA领域的相关工作仍然有限，现有的神经符号方法仍然严重依赖于静态规则系统或事后分析[19]，[20]，缺乏与学习到的特征和多维评分输出的深度耦合。为了提高感知的鲁棒性和评分的可追溯性，一个简单的解决方案是收集更多的裁判评分并训练更大的端到端模型，但这增加了数据和训练成本，并没有从根本上解决在主观标签下评分回归的“黑箱”性质；因此，引入结构化约束和自适应机制，以明确解决跳水感知中的多样化关键点错误模式和质量评估中缺乏可追溯逻辑的问题，仍然是提高AQA透明度和整体可信度的关键问题。

基于此，我们提出了一种新颖的多阶段神经符号范式，用于可解释的跳水动作质量评估，称为MN-AQA。该框架从三个方面改进了AQA：在具有挑战性的视觉条件下的稳健关键点感知、用于结构化评估的显式阶段语义建模，以及用于可解释和可追溯预测的自适应神经符号评分。本工作的主要贡献总结如下：

•
我们提出了MN-AQA，这是一个用于跳水动作质量评估的多阶段神经符号框架，它实现了从可靠的数据感知到可解释的评分和可追溯的评估结果的链式评估过程。
•
我们引入了姿态恢复模块（PRM），该模块通过门控专家选择对初始姿态估计进行残差校正，有效减少了由水花遮挡、运动模糊和极端姿势引起的关键点定位错误。
•
我们设计了相位条件神经符号评估模块（NSAM），它包括一个相位条件编码器（PCE）用于显式的阶段语义时间建模，以及一个混合推理机制（HRM），用于基于规则的符号评分与神经特征的自适应融合，从而实现可解释和可追溯的评估。

方法

所提出的框架名为MN-AQA，包括一个姿态恢复模块（PRM）和一个相位条件神经符号评估模块（NSAM），其中NSAM进一步包括一个相位条件编码器（PCE）和一个混合推理机制（HRM）。给定姿态检测器估计的关键点序列，MN-AQA首先应用PRM进行姿态细化，然后将细化后的关键点输入NSAM进行相位条件下的多模态推理，以支持最终评分预测

实验

我们在MTL-AQA数据集上进行了广泛的实验，以评估MN-AQA的性能，重点关注PRM和NSAM在准确性、一致性和可解释性方面的表现。我们在第4.1节提供了数据集和指标，在第4.2节提供了实现细节。第4.3节进行了与基线的比较和消融研究，第4.4节进行了消融研究，第4.5节提供了定性可视化结果。

结论与讨论

结论。我们提出了MN-AQA，这是一个用于可解释跳水评分的多阶段神经符号AQA框架。MN-AQA包括一个姿态恢复模块、一个相位条件编码器和一个混合推理机制，以及多任务输出和视觉报告生成。MoE在遮挡和运动模糊条件下提高了姿态的可靠性，相位条件编码器模型细化了细粒度的时间结构。混合推理机制在纯神经分支和