利用集合变换器（Set Transformer）从一组运动单元活动中实时解码精细的运动意图

时间：2026年1月19日

来源：Biomedical Signal Processing and Control

编辑推荐：

本文提出一种结合卷积神经网络（CNN）和集合变换器的新方法，用于实时解码高密度表面肌电信号（HD-sEMG）分解的个体运动单位（MU）活动，有效捕捉MU动态募集和全局耦合特征。实验表明，该方法在16×8通道、8人10种手势任务中准确率达99.61±0.47%，显著优于现有方法（p<0.05），并验证了在随机MU辍学下的鲁棒性。

李东方|刘云飞|陈翔|周萍|张旭

中国科学技术大学微电子学院，安徽合肥

摘要

从高密度表面肌电图（HD-sEMG）中分解出的单个运动单位（MU）活动的解读是一种解码精细运动意图的有前景的方法，但在复杂和动态的招募条件下，其精确性和鲁棒性仍是一个关键挑战。本文提出了一种新颖的实时肌电模式识别方法，用于准确且鲁棒地识别手指运动。所提出的方法将分解后的MU视为动态且无序的集合。它结合了卷积神经网络（CNN）来提取单个MU的局部特征，以及具有排列不变注意力机制的集合变换器来捕捉MU集合内的全局特征和高阶耦合模式。此外，集合变换器处理动态变化输入大小的能力确保在处理过程中不会丢失任何额外信息。性能评估使用了从8名受试者前臂记录的16×8通道HD-sEMG信号，这些受试者执行了10种不同的手指动作。我们提出的方法实现了99.61±0.47%的识别准确率，显著优于现有方法（p < 0.05）。此外，通过随机MU丢弃策略证明了其鲁棒性，该策略模拟了在实际记录中常见的低信噪比（SNR）条件下可分解MU的丢失。在这些现实的干扰下，我们的模型在不同丢弃水平下仍保持了优异的性能。这项工作为从微观神经肌肉信号中灵活、准确和实时解码运动意图提供了一个有前景的解决方案，具有增强下一代人机界面系统性能和适应性的强大潜力。

引言

近年来，表面肌电图（sEMG）已被广泛用作建立人机界面（HMI）的控制输入，也称为肌电控制[1]、[2]，应用于假肢控制[3]和康复机器人[4]等领域。为了在这些领域实现直观和可靠的控制，模式识别已成为一种核心技术，能够将运动意图映射为控制指令。通过从sEMG信号中提取区分性特征，它能够准确识别各种运动模式，并支持具有多个自由度的智能设备控制[5]、[6]。在各种肌电模式识别研究中，手指运动识别尤为重要。它促进了精细的运动控制，支持有针对性的手部康复，并增强了虚拟和增强现实系统中的用户交互[7]、[8]。

当前主流的肌电模式识别方法主要依赖于从sEMG信号的时间和频率域中提取的宏观特征来构建分类模型[9]、[10]。这些方法因其简单性、计算效率和在各种任务中的相对高准确性而受到青睐[6]、[7]、[8]、[9]。然而，它们仅关注sEMG信号的一般表现，而没有捕捉生成这些信号的潜在神经机制。此外，这些宏观特征容易受到电极放置[11]、肌肉疲劳[12]、[13]和皮肤阻抗[6]等因素的影响，这可能会影响肌电控制系统的稳定性和鲁棒性。

为了克服这些限制，HD-sEMG分解的最新进展使得能够提取单个运动单位（MU）的活动，包括MU尖峰列及其在二维阵列中的相应波形[14]。这些发展为了解MU级别的神经肌肉协调提供了前所未有的见解。代表性的分解技术，如卷积核补偿（CKC）[15]、渐进式FastICA剥离（PFP）[16]及其变体，使得获取运动神经元的时空发射模式成为可能。这些模式反映了MU在复杂运动中的动态招募和协作行为，提供了比传统宏观特征更符合生理学的替代方案。为了满足实时应用的需求，还提出了CKC和PFP算法的自适应在线版本，用于在线将sEMG分解为MU活动[17]、[18]、[19]、[20]，为直接从MU级别的神经驱动解码运动意图铺平了道路。此外，最近的研究努力将MU分解技术扩展到跨日和跨人的场景，增强了它们在记录条件变化引起的分布变化下的稳定性，扩大了其在实际应用中的适用性[21]、[22]。

这些MU分解的进步使得可以非侵入性地获取微观神经信息，从而为其在肌电控制中的使用奠定了基础。最近的研究表明，利用微观神经驱动信息可以显著提高肌电模式识别的性能[23]、[24]、[25]、[26]、[27]、[28]。例如，Farina等人使用MU时间放电特征量化了重新神经支配的肌肉部位的MU，并采用支持向量机进行分类[23]。Yang等人专注于低维MU组，并从分解后的MU的累积尖峰列（CSTs）中提取空间映射特征，以训练卷积神经网络（CNN）进行手势分类[24]。Chen等人提出了一种基于MU发射率（FR）特征的方法，在实时多运动任务场景中实现了可靠的性能[25]。Zhao等人进一步结合了FR和运动单位动作电位（MUAP）特征，使用模糊加权决策（FWD）策略实现了实时手指运动识别[26]。他们还发现，在电极偏移条件下，结合单个MU的空间特征作为先验知识显著提高了手势识别的鲁棒性[27]。总体而言，这些研究强调了MU级别信息的潜力，可以实现更准确和可靠的肌电控制，为自然和可靠的人机交互提供了有希望的途径。

尽管在基于MU的肌电模式识别方面取得了上述进展，但两个关键挑战仍然阻碍了其实际应用。首先，现有方法缺乏对MU之间协同作用的显式建模，这对于准确捕捉潜在的运动控制策略至关重要。这一限制主要源于MU集合的固有排列不变性，这是由于通过分解算法获得的MU顺序本质上是没有意义的[29]。由于排列MU顺序不会改变集合级分析的结果，因此经常忽略了MU之间的关系结构[24]、[25]。结果，许多方法要么对MU特征进行平均、连接或投票，而不考虑它们之间的关系结构，不可避免地忽略了MU之间的耦合[26]、[27]、[28]、[30]、[31]。其次，MU的动态招募引入了维度不稳定性，使得难以提取用于分类和预测的一致特征[32]。此外，实际记录中的低SNR条件减少了可分解MU的数量，增加了集合基数之外的变异性[16]。为了缓解这一问题，通常采用基于PCA的降维、聚类和固定长度叠加等技术[24]、[25]、[30]、[32]。然而，这些方法通过将可变大小的输入转换为固定维度的空间来简化问题，但代价是信息丢失和进一步破坏了MU级别的依赖性。因此，现有方法在表示神经肌肉活动的动态和协作性质方面存在不足，限制了HD-sEMG分解在复杂运动模式识别任务中的有效性。机器学习的最新进展，特别是集合变换器，提供了一个有前景的替代方案。集合变换器最初是为涉及无序集合的计算机视觉任务设计的，它们利用排列不变的自注意力机制来捕捉元素之间的交互，而不依赖于它们的顺序[33]、[34]、[35]。此外，它们处理可变大小输入的能力使得即使在运动阶段MU数量波动时也能进行鲁棒的表示。这些特性使得集合变换器特别适合于建模MU序列的不规则、动态和协作结构，为解决排列不变性和维度不稳定性提供了原则性的解决方案[35]。

考虑到以上因素，本研究报告了一种基于MU活动的精细运动意图解码的新方法。据我们所知，这是首次引入和定制集合变换器架构来表征和解释一组单个MU活动的方法。在我们的方法中，从sEMG信号中分解出的MU被直观地视为要处理的动态且无序的集合，从而能够全面利用可用的MU信息并自适应学习它们的协作调节机制。通过结合CNN进行MU局部特征提取和集合变换器进行MU集合全局特征提取，我们的方法有望有效应对复杂和动态MU招募条件带来的挑战。这项研究为解码精细运动意图和构建鲁棒高效的HMI提供了先进的方法，具有在消费电子和康复医学中的广泛应用。

方法部分

图1显示了所提出方法的整体框图，用于实时运动识别。运动模式识别是以用户特定的方式进行的，表明训练和测试数据都是从同一参与者那里记录的。为了支持实时手势推断，整个工作流程分为三个阶段。在第1阶段，收集了sEMG记录，并用于初始化EMG分解，从而建立了用户特定的MU池

分解结果

在离线构建MU池的过程中，每个受试者的MU池中的MU数量有所不同，去重后平均为85.8±18.6个。在训练阶段的在线分解过程中，每个受试者每个滑动窗口平均产生13.7±6.4个MU。图5展示了受试者2在单次训练过程中的在线分解结果。可以发现，在图5中执行特定手势时，一些分解出的MU表现出不连续的发射

讨论

在这项研究中，我们提出了一种基于MU活动的新型肌电模式识别方法。我们的方法将来自HD-sEMG分解的MU独特地视为动态且无序的集合。通过结合CNN和集合变换器的混合架构，我们的方法有助于深入分析MU之间的耦合模式。结果表明，与其他方法相比，我们的方法在识别准确性和鲁棒性方面显著优于其他方法

结论

本文提出了一种创新的方法，该方法结合了CNN和集合变换器，用于基于MU活动的实时模式识别。该方法通过将MU视为动态且无序的集合并从局部和全局角度提取特征，开辟了新天地。所提出的方法在其他方法中表现显著优于（p < 0.05），并且在不同水平的随机MU丢弃下保持了最高的准确率（p < 0.05）。这些结果全面验证了