通过双视角不一致性学习实现开放集肌电手势识别

时间:2026年1月18日
来源:Computer Methods and Programs in Biomedicine

编辑推荐:

针对表面肌电(sEMG)手势识别中开放集场景下的分类准确率与未知手势拒绝率难以兼顾的问题,提出双视角不一致学习框架PredIN。该方法通过构建两个互补视角,最大化已知类别的特征分布不一致性,同时利用三元组损失优化单视角内类可分性,最终实现开源环境下分类与拒识的协同优化。

广告
   X   

陈刘|韩灿|周成峰|王雅琪|蔡晶|钱大红
上海交通大学生物医学工程学院,中国上海

摘要

背景与目标:

基于表面肌电图(sEMG)的手势识别在人机交互(HMI)领域取得了显著进展,尤其是在假肢控制和运动康复方面。然而,在实践中,准确识别预定义的手势仍然存在不足;需要一个强大的开放集系统,既能有效拒绝未知手势,又能正确分类已知手势,而这在肌电手势识别领域很少被探讨。

方法:

为了解决这一挑战,我们首先发现了一个重要的区别:对于未知类别,预测结果存在不一致性,这种不一致性源于不同视角的影响,可以显著提高开放集识别性能。基于这一发现,我们提出了一种新的双视角不一致性学习方法PredIN,通过增强不同视角下类别特征分布的不一致性来放大这种不一致性。具体来说,PredIN通过最大化双视角之间的类别特征分布不一致性来增强它们的差异性,同时优化单个视角下的类别可分性,以保持各自的性能。

结果:

我们在四个公开的sEMG数据集上评估了我们的方法。综合实验表明,PredIN的表现明显优于现有的最先进方法。

结论:

我们提出的方法能够同时实现对预定义手势的准确闭合集分类和对未知手势的有效拒绝,证明了其在基于sEMG的开放集手势识别中的有效性和优越性。

引言

在人机交互(HMI)范式中,手势识别是一项基础任务,并已广泛应用于多个领域[1]、[2],如运动康复、假肢控制和移动交互。最近,基于表面肌电图(sEMG)信号的手势识别系统[3]的发展尤为显著。然而,大多数系统仅限于经典的闭合集场景,其中训练集和测试集具有相同的标签空间。这些闭合集系统在动态且不断变化的现实世界中缺乏鲁棒性和可靠性,导致它们会将新的手势或无意的动作误认为是已知手势,从而产生错误的交互信号。因此,需要一个强大的手势识别系统,能够在现实世界场景中正确分类已知手势并识别未知手势(图1)。Scheirer等人[4]首次将上述需求描述为开放集识别(OSR),其测试集包含训练集中未包含的未知类别。
OSR是计算机视觉领域的一个活跃研究方向,不断有新的方法被提出。然而,只有少数研究[5]、[6]专注于开放集肌电手势识别。由于sEMG信号本质上是随机和非平稳的,基于重建或生成模型的常用方法在OSR中可能不适用,特别是在实现与判别方法[7]、[8]相当的闭合集分类准确性方面。现有OSR判别方法的一个主要方面是探索已知类别和未知类别之间的差异,并设计各种策略来放大这些差异[9]。因此,基于这些差异推导出一个评分函数来拒绝未知类别。最近OSR的一个流行趋势是使用原型学习(PL),因为它能够在已知类别和未知类别之间建立明确的距离区分,并且比softmax预测概率区分[10]、[11]表现出更好的性能。PL方法能够在保持未知类别开放空间的同时学习紧凑的特征空间。尽管基于PL的方法取得了有希望的性能,但它们并没有充分探索已知类别和未知类别之间的内在差异,因为仅从单一视角进行区分是不够的。
除了距离差异之外,我们还发现不同视角下的预测不一致性可以提高OSR的性能。在现实世界场景中,同一个实体可以根据不同的视角被描述为不同的形式。通过考虑多个视角,可以更可靠地评估两个实体之间的真实相似性。根据我们的发现,这些不同的视角在识别未知类别时起着关键作用。图2(a)展示了一个简单的例子:我们可以将已知样本表示为一个圆锥,未知样本表示为一个圆柱体。想象从顶部观察圆柱体,其投影看起来与圆锥体相似,但从另一个角度观察则不同。然而,无论投影方向如何,圆锥体的投影仍然与其他圆锥体相似。同样,已知样本从任何投影方向来看都与其他同一类别的样本一致,这构成了预测一致性(图2(b))。然而,未知样本在不同视角下很难保持与同一类别的伪相似性,从而导致其预测不一致性(图2(c))。为了更好地理解预测不一致性,需要注意的是,分类模型可能会对未知样本赋予过高的置信度,并将其错误地分类为已知类别[10]。预测不一致性的差异有助于区分未知样本。在我们的例子中,两个视角由两个相同的网络表示,它们之间的差异仅由于初始化和学习过程的随机性而产生[12]。尽管如此,它在已知样本和未知样本之间的预测不一致性方面表现出明显的差异。学习如何结合多种不同的视角将有助于放大未知样本的预测不一致性。因此,一个自然的想法是增强视角之间的差异。
为此,我们提出了一种新的双视角不一致性学习方法PredIN,通过明确增强视角内类别特征分布的不一致性来放大预测不一致性。具体来说,PredIN构建了两个分支来代表双视角。在两个视角中,PredIN通过不一致性损失来最大化类别特征分布的不一致性,从而增强视角差异。在单个视角内,PredIN结合了三元组损失来优化类别间的可分性,从而保持各自的性能。这两种策略共同作用,以规范类别特征分布。PredIN最终根据预测不一致性和距离来拒绝未知样本。我们在公开数据集上进行了全面实验,以验证我们提出方法的优越性。
贡献总结
  • (1)
    我们设计了一种新的双视角不一致性学习框架PredIN,用于解决开放集肌电手势识别中一个关键且未被充分探索的任务。我们发现了开放集场景中已知样本和未知样本之间的显著差异,不同视角下的预测不一致性可以显著提高开放集识别性能。
  • (2)
    为了放大预测不一致性,我们提出了两种互补策略,通过明确最大化类别特征分布的不一致性来学习多种不同的视角,同时保持各自的性能。
  • (3)
    在多个公开的sEMG数据集上的综合实验表明,我们的方法同时保持了已知手势的闭合集分类准确性,并提高了未知手势的拒绝能力,明显优于以前的方法。

部分内容

基于闭合集sEMG的手势识别

深度学习的发展使基于sEMG的手势识别摆脱了手动特征提取的限制,有助于更好地理解人类手势[13]。各种深度学习架构已被广泛用于这项任务。Park等人[14]率先将卷积神经网络(CNN)模型应用于Ninapro DB2数据集[15]的分类。此外,更复杂的CNN模型和循环神经网络(RNN)模型也展示了它们的

问题定义

考虑到基于sEMG的手势识别在现实世界场景中的应用,我们假设YN是所有可能手势类别的无限标签空间。假设C={1,,…,NY代表N是训练集和测试集中都出现的已知类别。集合U=YC代表所有需要在测试集中出现的未知类别。开放集识别的目标是找到一个可测量的识别函数fH,该函数能够最小化经验误差

数据集

我们应用了四个公开的sEMG基准数据集[15]、[31]、[32]、[33]来验证我们提出的方法,如表1所示。在预处理过程中,原始sEMG信号通过长度为200毫秒、步长为50毫秒的滑动窗口进行分割,然后按通道进行标准化。根据BioPatRec [31]的建议,我们使用0.7的收缩时间百分比来去除BioPat DB2数据集中的瞬态时期。根据基于sEMG的闭合集手势识别设置[3]

进一步分析与讨论

结论

将手势识别从闭合集扩展到开放集对于现实世界的HMI非常重要。为了解决基于sEMG的开放集手势识别问题,我们提出了一种新的双视角不一致性学习方法PredIN,该方法基于我们观察到的不同视角下未知样本的显著预测不一致性。具体来说,我们提出了两种互补策略,通过增强视角差异来提高OSR性能,同时保持各自的性能。

CRediT作者贡献声明

陈刘:撰写——审稿与编辑,撰写——初稿,可视化,验证,软件,方法论,调查,概念化。韩灿:撰写——审稿与编辑,可视化,验证,方法论,调查,概念化。周成峰:撰写——审稿与编辑,撰写——初稿,可视化,方法论。王雅琪:撰写——审稿与编辑,可视化,监督,项目管理。蔡晶:撰写——审稿与

写作过程中使用生成式AI和AI辅助技术的声明

在准备这项工作时,作者使用了ChatGPT来提高语言表达和可读性。使用该工具/服务后,作者根据需要对内容进行了审阅和编辑,并对出版物的内容负全责。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

这项工作部分得到了OYMotion Technologies的支持。

生物通微信公众号
微信
新浪微博


生物通 版权所有