在人机交互(HMI)范式中,手势识别是一项基础任务,并已广泛应用于多个领域[1]、[2],如运动康复、假肢控制和移动交互。最近,基于表面肌电图(sEMG)信号的手势识别系统[3]的发展尤为显著。然而,大多数系统仅限于经典的闭合集场景,其中训练集和测试集具有相同的标签空间。这些闭合集系统在动态且不断变化的现实世界中缺乏鲁棒性和可靠性,导致它们会将新的手势或无意的动作误认为是已知手势,从而产生错误的交互信号。因此,需要一个强大的手势识别系统,能够在现实世界场景中正确分类已知手势并识别未知手势(图1)。Scheirer等人[4]首次将上述需求描述为开放集识别(OSR),其测试集包含训练集中未包含的未知类别。
OSR是计算机视觉领域的一个活跃研究方向,不断有新的方法被提出。然而,只有少数研究[5]、[6]专注于开放集肌电手势识别。由于sEMG信号本质上是随机和非平稳的,基于重建或生成模型的常用方法在OSR中可能不适用,特别是在实现与判别方法[7]、[8]相当的闭合集分类准确性方面。现有OSR判别方法的一个主要方面是探索已知类别和未知类别之间的差异,并设计各种策略来放大这些差异[9]。因此,基于这些差异推导出一个评分函数来拒绝未知类别。最近OSR的一个流行趋势是使用原型学习(PL),因为它能够在已知类别和未知类别之间建立明确的距离区分,并且比softmax预测概率区分[10]、[11]表现出更好的性能。PL方法能够在保持未知类别开放空间的同时学习紧凑的特征空间。尽管基于PL的方法取得了有希望的性能,但它们并没有充分探索已知类别和未知类别之间的内在差异,因为仅从单一视角进行区分是不够的。
除了距离差异之外,我们还发现不同视角下的预测不一致性可以提高OSR的性能。在现实世界场景中,同一个实体可以根据不同的视角被描述为不同的形式。通过考虑多个视角,可以更可靠地评估两个实体之间的真实相似性。根据我们的发现,这些不同的视角在识别未知类别时起着关键作用。图2(a)展示了一个简单的例子:我们可以将已知样本表示为一个圆锥,未知样本表示为一个圆柱体。想象从顶部观察圆柱体,其投影看起来与圆锥体相似,但从另一个角度观察则不同。然而,无论投影方向如何,圆锥体的投影仍然与其他圆锥体相似。同样,已知样本从任何投影方向来看都与其他同一类别的样本一致,这构成了预测一致性(图2(b))。然而,未知样本在不同视角下很难保持与同一类别的伪相似性,从而导致其预测不一致性(图2(c))。为了更好地理解预测不一致性,需要注意的是,分类模型可能会对未知样本赋予过高的置信度,并将其错误地分类为已知类别[10]。预测不一致性的差异有助于区分未知样本。在我们的例子中,两个视角由两个相同的网络表示,它们之间的差异仅由于初始化和学习过程的随机性而产生[12]。尽管如此,它在已知样本和未知样本之间的预测不一致性方面表现出明显的差异。学习如何结合多种不同的视角将有助于放大未知样本的预测不一致性。因此,一个自然的想法是增强视角之间的差异。
为此,我们提出了一种新的双视角不一致性学习方法PredIN,通过明确增强视角内类别特征分布的不一致性来放大预测不一致性。具体来说,PredIN构建了两个分支来代表双视角。在两个视角中,PredIN通过不一致性损失来最大化类别特征分布的不一致性,从而增强视角差异。在单个视角内,PredIN结合了三元组损失来优化类别间的可分性,从而保持各自的性能。这两种策略共同作用,以规范类别特征分布。PredIN最终根据预测不一致性和距离来拒绝未知样本。我们在公开数据集上进行了全面实验,以验证我们提出方法的优越性。
贡献总结- (1)
我们设计了一种新的双视角不一致性学习框架PredIN,用于解决开放集肌电手势识别中一个关键且未被充分探索的任务。我们发现了开放集场景中已知样本和未知样本之间的显著差异,不同视角下的预测不一致性可以显著提高开放集识别性能。
- (2)
为了放大预测不一致性,我们提出了两种互补策略,通过明确最大化类别特征分布的不一致性来学习多种不同的视角,同时保持各自的性能。
- (3)
在多个公开的sEMG数据集上的综合实验表明,我们的方法同时保持了已知手势的闭合集分类准确性,并提高了未知手势的拒绝能力,明显优于以前的方法。