基于时间频率变换核的增强型ShallowConvNet模型，用于在稳态运动听觉诱发电位背景下实现听觉选择性注意解码

时间：2026年2月8日

来源：Biomedical Signal Processing and Control

编辑推荐：

本研究提出一种结合时间-频率变换的卷积层的新型浅层卷积神经网络模型，用于SSMAEP脑机接口的信号解码。通过将S变换、拉普拉斯小波、莫尔莱特小波和STFT作为可学习的卷积核，有效提取了SSMAEP信号的时间-频率特征。实验表明，相比传统CNN模型，该新方法在两个和三个听觉目标下的分类准确率和信息传输率均显著提升，同时保持了较高的可解释性。

张焕清|谢军|刘凯轩|刘艳|董文香|徐光华

西安交通大学机械工程学院，中国西安

摘要

稳态运动听觉诱发电位（SSMAEP）是由具有周期性空间运动的节奏性听觉刺激引发的神经反应。SSMAEP脑机接口（BCI）依赖于听觉选择性注意来解码多源环境中的用户意图。然而，SSMAEP复杂的时频结构给从脑电图（EEG）中有效提取特征带来了挑战。时频变换适用于提取SSMAEP的联合时频特征。值得注意的是，这些变换与卷积神经网络中的卷积操作在结构上具有相似性。在本研究中，我们提出了一种新的时频卷积层，该层结合了基于S变换、连续小波变换（CWT）和短时傅里叶变换（STFT）的结构化核。这些时频核作为可学习的滤波器嵌入模型，取代了ShallowConvNet的传统第一卷积层。这种设计使模型能够更有效地捕捉SSMAEP信号在时间和频率域上的动态变化。所提出的方法在包含两个和三个听觉目标的两个SSMAEP-BCI数据集上进行了评估。实验结果表明，与基线模型相比，分类准确性和鲁棒性都有了一致的提升。此外，对学习到的核的分析显示，时频滤波器在训练后仍保持了其可解释的结构，中心频率和带宽发生了与任务相关的变化。这些发现不仅突出了所提模型的性能优势，还揭示了SSMAEP-BCI的频谱编码特性。

引言

脑机接口（BCI）在脑与外部设备之间建立了直接的通信路径，无需依赖周围神经和肌肉系统[1]，[2]。在各种BCI模式中，视觉BCI由于其高信息传输率（ITR）、成本效益和用户友好的设计而被广泛采用[3]，[4]。然而，有视觉障碍或闭锁综合征（LIS）的个体在使用基于视觉的BCI时面临重大挑战。在肌萎缩侧索硬化症（ALS）的晚期阶段，运动功能的逐渐退化会导致与眼睛相关的运动丧失，包括眼球控制和眼睑运动[5]。为了解决这些限制并扩大BCI的适用范围，基于听觉的BCI受到了越来越多的研究关注[6]。

当受试者受到具有恒定频率的间歇性周期性运动的听觉刺激时，大脑会在外部刺激或其谐波的相同频率下产生响应（即稳态运动听觉诱发电位（SSMAEP）[7]。SSMAEP-BCI范式涉及在听觉空间中同时呈现两个或多个听觉刺激，要求受试者选择性地关注目标刺激而忽略非目标刺激。选择性听觉注意增强了对该刺激的神经反应，从而在相应频率下产生振幅更高的稳态响应。除了调节响应幅度外，听觉注意还影响特定频率带的脑电图（EEG）活动[8]。SSMAEP-BCI依赖这些神经机制来解码用户意图。然而，由于同时呈现多个听觉刺激，会在多个频率下引发稳态响应，目标响应相对较弱，这使得准确解码变得具有挑战性。因此，改进识别算法对于提高听觉BCI系统的性能至关重要。

近年来，深度学习在BCI中的应用取得了有希望的结果[9]，[10]。与手动特征提取技术相比，深度学习方法可以从EEG数据的多个维度同时学习复杂模式，从而实现更高效和稳健的解码。因此，已经提出了许多先进的深度学习架构用于BCI应用[11]，[12]，[13]。卷积神经网络（CNN）因其能够高效捕获时间和空间特征而被广泛用于EEG分类[12]，[14]，[15]。然而，总体上仍有很大的改进空间，特别是在解决SSMAEP-BCI中的解码性能不佳问题方面。此外，基于CNN的BCI模型的一个关键局限性是它们缺乏可解释性，因为它们作为黑盒模型，对决策过程的了解有限[16]，[17]。这不仅引发了关于基于CNN的预测可靠性和可信度的担忧，也限制了模型的进一步优化和完善。

时频分析方法整合了时间和频率维度，提供了对大脑活动动态特性的全面理解，这对于神经解码至关重要[18]，[19]。常见的时频分析方法包括短时傅里叶变换（STFT）[20]、小波变换（WT）[21]、S变换（ST）[22]等。在信号处理理论中，CNN中的卷积操作可以解释为两个向量的内积[23]。同样，CWT、STFT和ST也依赖于内积计算，这突显了基于CNN的特征提取与传统时频分析之间的概念协同性。这种联系促使人们用参数化小波运算符替换传统的CNN滤波器，旨在提高核的可解释性，同时减少对手动特征工程的依赖。先前的研究已将小波集成到CNN架构中，构建了小波核网络，在故障诊断中表现出优越的性能[24]，[25]，[26]，[27]。廖等人[27]将Daubechies小波集成到卷积层中，以评估它们在CNN中进行智能故障诊断的有效性。李等人[26]提出了一种可解释的小波包约束卷积网络，它结合了小波基的特征提取能力和卷积核的学习能力。然而，小波核网络受到小波基的影响，不同小波基下的小波核网络性能存在很大差异[28]。此外，小波卷积在提高SSMAEP-BCI性能方面的潜力尚未得到充分探索，需要进一步研究。

ST的发展和广泛应用归功于STFT和CWT这两种算法。ST结合了STFT和CWT的优点，避免了它们的缺点[29]。ST的窗口函数是高斯窗口函数[30]，其最显著的特点是窗口宽度与频率的导数成正比，这在低频率下提供了更好的频率分辨率，在高频率下提供了更好的时间分辨率。ST不需要显式选择窗口函数，从而克服了固定窗口宽度带来的限制。此外，与CWT相比，它保留了相位因子。ST是一种线性时频表示，因此没有交叉项干扰。ST具有更好的时频特性，适用于提取信号的时频特征[31]。基于ST的优势，本研究提出了一种新的、可解释的ST卷积核，通过将ST与CNN结合来实现。

为了研究基于时频变换的卷积核对SSMAEP-BCI解码性能的影响，本研究提出了时频信息增强卷积核，包括ST卷积核、拉普拉斯小波核、Morlet小波核和STFT卷积核。这些核分别基于ST窗口函数、拉普拉斯小波、Morlet小波和STFT中的窗口函数构建。这些时频变换具有互补的分辨率特性。Morlet小波适用于捕获多尺度瞬态特征和检测神经活动的短期变化[32]。拉普拉斯小波强调强烈的时间定位能力，使其适用于建模突然的信号变化，如刺激起始[33]。STFT提供固定的时频分辨率，非常适合解码稳定的节奏成分[34]。相比之下，ST结合了频率依赖的窗口化和全局相位信息，使其能够捕获嵌入在节奏运动刺激中的调制频谱模式[35]。这四种类型的核涵盖了从瞬时响应到稳态振荡的广泛时间和频率表示范围，为评估不同时频结构对SSMAEP-BCI解码性能的影响提供了全面的基础。

第一卷积层是CNN中处理波形信号输入的最关键部分之一。通过用时频信息增强卷积层替换ShallowConvNet中的第一卷积层，CNN的第一层变得可解释，并且能够有效提取SSMAEP的时频特征。在SSMAEP-BCI中评估了四种时频变换卷积增强ShallowConvNet模型（即ST卷积核、拉普拉斯小波卷积核、Morlet小波卷积核和STFT卷积核）的解码性能。结果表明，时频变换卷积层提高了SSMAEP-BCI的解码性能。

部分摘录

时频变换卷积层

在CNN中，卷积操作可以表示为两个向量的内积。第l层的第k个特征图的特征值为

h_{k}^{l} k

其中

\begin{matrix} h_{k}^{l} = w_{k}^{l} \end{matrix}

其中

w_{k}^{l}

b_{k}^{l}

x是第l层中第k个卷积核的权重，

在CNN的卷积层中，每个随机初始化的卷积核都会遍历输入的宽度和高度。

结果

我们使用了三个指标（即准确性、ITR和kappa值）来评估我们的算法。表2、表3和表4分别显示了所有受试者在不同数据长度下ShallowConvNet及其时频变换核增强变体（即STConv-ShallowConvNet、LWConv-ShallowConvNet、MWConv-ShallowConvNet和STFTConv-ShallowConvNet）的平均解码准确性、平均ITR和平均kappa值。结果表明，这四种