随着计算机视觉在体育训练和技能评估中的广泛应用,基于视频的动作分析逐渐成为辅助教练和裁判的重要工具[1],[2]。在跳水和体操等技术敏感的项目中,动作质量评估(AQA)可以从运动员的连续动作中提取信息性线索,并输出定量评分,支持技术纠正和表现评估[3],[4]。对于实际应用而言,理想的AQA系统不仅应具备接近人类裁判的预测准确性,还应在复杂的比赛环境中保持稳定,同时提供清晰的评分证据和可追溯、可审查的决策过程,从而使评估更加透明和可信(见图1)。
最近的研究开始采用深度学习模型进行AQA,并使用大量的历史裁判评分数据进行端到端训练[5]。主流方法通常将AQA视为一个回归问题[6],主要目标是减少预测评分与裁判评分之间的差异[7]。这种性能提升主要归因于两个因素:(i)大规模裁判评分数据的可用性,使得端到端拟合成为可能;(ii)深度模型能够从全局视频表示中回归出最终评分。然而,大多数AQA方法仍然从全局视频嵌入中回归出一个单一的标量评分,这只能弱化阶段级别结构和特定维度的技术线索。因此,这些模型往往无法提供清晰的评分理由和错误定位,评分过程表现出强烈的“黑箱”特性,这对于需要透明度和可审计性的细粒度训练场景来说是不足的[8],[9],[10]。因此,这就提出了一个问题:我们是否已经完全对齐了AQA模型所感知的内容和裁判所评估的内容,从而使评分逻辑变得透明和可信。
主要挑战在于特征表示的不可靠性和评估过程的不透明性。作为AQA系统中的基本组成部分,基于姿态的特征在复杂的视觉条件下往往不稳定,端到端的评分流程通常缺乏透明和可审查的推理。尽管高分辨率网络和基于Transformer的姿态估计器在多个基准测试中实现了接近人类注释的准确性[11],[12],但跳水视频不可避免地包含水花遮挡、自我遮挡和运动模糊,这可能导致关键点漂移甚至结构失效,从而增加最终评分的不确定性。现有方法通常通过时间过滤或图卷积约束来细化关键点[11],这可以在一定程度上平滑抖动并纠正局部结构,但当存在多种复杂错误模式时,单一的细化机制难以迅速和全面地响应。专家混合模型在建模异构分布和多样化的错误模式方面具有天然优势[13],但目前的研究主要集中在通用视觉任务上,对姿态细化场景的系统探索仍然有限[14],[15],这使得数据级别的可靠性成为AQA系统整体可信度的持续瓶颈。
在此基础上,特征推理和评分过程的可解释性也面临类似的挑战。实际上,人类裁判在评估表现时并不完全依赖全局印象;相反,他们根据阶段结构的执行(如起跳、飞行、旋转和入水)以及相关的技术细节来做出决策。这要求模型不仅能够可靠地感知运动线索,还能够与阶段语义对齐,并提供可追溯的评分逻辑。然而,大多数现有的端到端方法通过回归将全局视频特征压缩为一个标量评分,将评分机制封装在一个“黑箱”中,这使得技术线索难以与人类认知对齐,多维评分的可解释性较弱。为了缓解这些限制,神经符号融合被探索为一个有前景的方向,它结合了神经网络的特征学习能力和符号系统的逻辑透明度,显示出在视觉推理任务中提高准确性和可解释性的潜力[16],[17]。一些研究将逻辑规则或知识图谱嵌入到模型架构中,使模型在保持强大预测性能的同时产生可检查的推理链[18]。尽管如此,AQA领域的相关工作仍然有限,现有的神经符号方法仍然严重依赖于静态规则系统或事后分析[19],[20],缺乏与学习到的特征和多维评分输出的深度耦合。为了提高感知的鲁棒性和评分的可追溯性,一个简单的解决方案是收集更多的裁判评分并训练更大的端到端模型,但这增加了数据和训练成本,并没有从根本上解决在主观标签下评分回归的“黑箱”性质;因此,引入结构化约束和自适应机制,以明确解决跳水感知中的多样化关键点错误模式和质量评估中缺乏可追溯逻辑的问题,仍然是提高AQA透明度和整体可信度的关键问题。
基于此,我们提出了一种新颖的多阶段神经符号范式,用于可解释的跳水动作质量评估,称为MN-AQA。该框架从三个方面改进了AQA:在具有挑战性的视觉条件下的稳健关键点感知、用于结构化评估的显式阶段语义建模,以及用于可解释和可追溯预测的自适应神经符号评分。本工作的主要贡献总结如下:
- •
我们提出了MN-AQA,这是一个用于跳水动作质量评估的多阶段神经符号框架,它实现了从可靠的数据感知到可解释的评分和可追溯的评估结果的链式评估过程。
- •
我们引入了姿态恢复模块(PRM),该模块通过门控专家选择对初始姿态估计进行残差校正,有效减少了由水花遮挡、运动模糊和极端姿势引起的关键点定位错误。
- •
我们设计了相位条件神经符号评估模块(NSAM),它包括一个相位条件编码器(PCE)用于显式的阶段语义时间建模,以及一个混合推理机制(HRM),用于基于规则的符号评分与神经特征的自适应融合,从而实现可解释和可追溯的评估。