基于脑电图(EEG)的情感识别仍具挑战性,因为情绪的脑部反应具有非线性、噪声大且通过皮质区域间空间分布的交互作用表达的特征。尽管图神经网络(GNN)能够建模通道间的依赖关系,但大多数现有研究仅评估单一架构,且关于网络深度如何影响收敛稳定性和验证性能的证据有限。本研究提出一个用于基于EEG情感识别的深度感知比较框架,使用SEED-V数据集。EEG记录通过以下步骤进行预处理:通道移除、1-75 Hz带通滤波、50 Hz陷波滤波、降采样、分割、标记和Z-score归一化。提取微分熵(DE)、功率谱密度(PSD)、近似熵(ApEn)和统计描述符等特征,并使用固定的图拓扑进行表示。在一致的训练-验证协议下,评估了GCN、GAT、ST-GCN和DCNN四种架构在1至4层下的性能。结果表明,在所评估的模型中,GAT产生了最强的收敛模式并取得了最佳的基于验证集的性能,其中2-3层的配置在学习稳定性与模型深度之间提供了最有利的平衡。注意力权重分析进一步识别出FP1电极以及额部-中央-顶叶通路是模型决策过程中的关键组成部分,这支持了所学图表示的神经生理学合理性。然而,由于未使用独立的留出测试集或跨被试协议,其结果应被解释为基于验证集的证据,而非确定性的泛化性能表现。本研究为基于图的EEG情感识别中的架构选择、深度调优和可解释性分析提供了实践指导。
认知包括情绪、意识、语言和感知等心理过程,其中一些可以被计算性地测量,尽管并非所有方面都完全可量化。与癫痫、帕金森病和阿尔茨海默病等神经系统疾病相关的神经活动可以通过神经生理学方法进行监测。情绪作为核心的认知过程,源于神经生物活动,并在人类意识的进化中扮演着至关重要的角色。脑电图(EEG)信号以非侵入性的方式实时记录大脑电活动,并已被广泛应用于神经科学、心理学和人机交互领域的情感识别。然而,EEG信号的非线性和复杂特性对传统的线性分析方法构成了挑战。情绪通常被理解为对不确定性和威胁的反应,有别于压力。使用EEG测量情绪至关重要,因为它为情绪状态提供了详细的洞察。
先前基于EEG的研究已应用人工神经网络(ANN)、卷积神经网络(CNN)及相关深度学习方法,从EEG信号中估算情绪状态。相比之下,图神经网络(GNN)提供了一种新方法,通过将大脑区域间的交互建模为图结构,已被证明在脑机接口(BCI)、情绪解码和神经诊断等应用中展现出前景。本研究旨在通过全面的预处理(包括带通滤波、降采样、归一化、分割、标记和特征提取),然后使用多种GNN架构进行分类,来提升GNN在基于EEG的情绪识别中的性能。脑机接口的快速发展提升了情绪识别的重要性。虽然情绪也可以从文本、语音、面部表情或身体动作中推断,但这些线索通常不如生理反应直接。例如,Sandiwarno等人提出了SES-Net,一个从文本用户观点中联合捕捉情感、情绪和语义信息的多任务深度神经模型。相比之下,EEG生物信号为区分情绪状态提供了更丰富、更一致的信息。
GNN在建模代表大脑连接性的图结构中的复杂节点交互方面表现出强大能力。早期研究通过使用相位滞后指数(PLI)结合额外特征集,在健康和酒精中毒参与者的数据集上,使用GCN实现了90-93%的准确率。尽管如此,GNN在EEG数据中的应用仍然有限,这激发了本研究。近期,动态图注意力机制结合域适应被提出,以改善跨被试的EEG情绪识别。例如,Liu等人(2025)引入了一个集成动态图注意力和基于MMD(最大均值差异)域对齐的时空混合框架,证明了自适应邻接更新可以显著增强跨被试的鲁棒性。这一发现进一步支持了注意力驱动的图建模在基于EEG情绪分析中的重要性。
近期的进展将基于图的建模与Transformer架构相结合,以捕捉EEG信号中的空间拓扑和长程时间依赖性。与单一架构模型相比,这种混合策略展现了改进的表示学习,特别是在跨被试泛化任务中。本研究的主要贡献和新颖性可总结如下:1. 在SEED-V上的跨架构基准测试:研究人员在一致的实验设置下,对四种代表性的图学习架构(GCN、GAT、ST-GCN和DCNN)用于基于EEG的情绪分类进行了受控且全面的评估。2. 逐层深度研究(1-4层):系统性地研究了网络深度如何影响学习行为和最终性能,提供了不同图模型族中显式的深度-性能关系。3. 超越准确率的训练动态与泛化分析:批判性地审视了准确率-损失轨迹、过拟合倾向和收敛稳定性,以解释不仅哪个模型表现最好,而且为什么它在不同深度上表现更好。4. 可操作的模型选择指南:基于比较证据,研究人员将研究发现转化为选择图学习架构和深度配置用于EEG情感识别的实践建议。
新颖性声明:本文的新颖性在于提出了一个深度感知、跨架构的基准测试,将模型深度与训练稳定性和泛化行为联系起来,为设计基于图的EEG情感识别系统提供了实用参考,而非报告单一配置的结果。本文遵循IMRAD结构,涵盖文献综述、方法、结果、讨论、结论和未来研究方向。
材料与方法部分使用的数据集是先前研究人员已获使用批准的二次数据集。数据集详细信息见表1。本研究使用了SEED-V情绪EEG数据集。该数据集最初整合了五种情绪(快乐、悲伤、厌恶、中性、恐惧)的EEG和眼动追踪信号。记录来自16名个体(6名男性,10名女性),每位参与者在三个独立的会话中观看15个视频片段(每种情绪类别3个)。作为更广泛SEED数据集的一部分,本研究使用的SEED-V数据可免费用于学术目的。
图神经网络(GNN)方法代表了一类旨在扩展和调整深度学习模型,以有效处理和学习固有图结构数据的方法。该领域通常被称为图智能,是人工智能(AI)内的一个专门领域,专注于从图结构数据中提取知识的算法和技术。像CNN和RNN这样的深度学习架构通常无法有效处理图结构数据,因为其非网格结构和不规则连接模式。图智能研究在21世纪初开始获得发展动力,出现了专门为处理图及其组成节点而设计的GNN。
在深度学习于图像识别和自然语言处理等领域取得显著成就之后,人们对图结构数据的研究投入了越来越多的关注。深度学习的最新进展使模型能够捕捉超越欧几里得数据空间的复杂关系信息。GNN提供了几个关键优势:1. 它们被明确设计用于利用图拓扑,能够比传统模型更好地理解节点和边之间的关系。2. 它们灵活且适用于各种自然图结构数据,包括社交网络、分子结构和生物系统。3. 它们非常适合建模无法在传统网格格式中表示的非欧几里得数据。4. 它们可以与其他模态集成;例如,将EEG信号与图结构相结合可以丰富特征表示并提高模型性能。5. 它们能有效地泛化到未见过的图,因为它们的学习依赖于节点特征和图拓扑。GNN具有明显的优势,但也存在一些局限性。它们通常需要大量的计算资源,尤其是在处理大型图时,会减慢训练和推理速度。此外,大多数经典的GNN是为静态图构建的,因此将其应用于连接动态变化的图需要额外的架构修改。
节点v在第l层的特征表示由下式表达:
h_v^(l) = σ(W^(l) · AGGREGATE({h_u^(l-1) | u ∈ N(v)}) + b^(l))
其中:v表示目标节点索引;u表示v的邻居节点索引;N(v)表示节点v的邻居集合;l表示图神经网络中的层(或迭代)索引(网络深度);h_v^(l)表示节点v在第l层的节点表示/嵌入(在第l层消息传递后更新的特征);h_v^(l-1)表示节点v在上一层的表示,作为计算h_v^(l)的输入;h_u^(l-1)表示邻居节点u在上一层的表示;{h_u^(l-1) | u ∈ N(v)}表示所有邻居u在第l-1层的表示集合;AGGREGATE表示聚合函数,用于组合h_v^(l-1)和其邻居的表示,通常使用求和、均值或最大池化操作,再加上一个可学习的变换(通常是多层感知机/线性层+非线性);W^(l)和b^(l)表示AGGREGATE函数的可学习参数(例如权重和偏差)。
邻居信息使用求和、均值或最大池化等常见操作进行聚合:
m_v^(l) = AGGREGATE({h_u^(l-1) | u ∈ N(v)})
其中m_v^(l)表示节点v在第l层的聚合邻域消息;N(v)是v的邻居集合;h_u^(l-1)是邻居节点u在第l-1层的表示;AGGREGATE是聚合函数(如求和、均值或最大池化)。特征更新步骤定义为:
h_v^(l) = σ(W^(l) · m_v^(l) + b^(l))
其中h_v^(l)是节点v在第l层更新后的嵌入,m_v^(l)是聚合的邻居消息,W^(l)和b^(l)是第l层的可学习权重和偏差参数,σ是非线性激活函数(如ReLU)。
GCN的更新规则将CNN原理扩展到图:
H^(l+1) = σ(D̃^(-½) Ã D̃^(-½) H^(l) W^(l))
其中H^(l)表示第l层的节点特征矩阵,W^(l)是可学习权重矩阵,Ã是图的邻接矩阵加上单位矩阵I(添加自环),D̃是Ã的度矩阵(D̃_ii = Σ_j Ã_ij),σ是激活函数。近期的一些研究强调,邻接矩阵的构建和动态适应对GNN在EEG情绪识别任务中的性能至关重要。整合了数据驱动或自适应连接性的基于图的框架,与静态图公式相比,已展现出改进的判别能力。
GAT中的注意力机制通过以下方式计算归一化注意力系数:
α_ij = softmax_j(e_ij)
e_ij = LeakyReLU(a^T [W h_i ‖ W h_j])
其中‖表示连接,e_ij是节点i和其邻居j之间的未归一化注意力得分,α_ij是通过softmax函数在e_ij上获得的归一化注意力系数,h_i和h_j是节点特征向量,W是可学习的线性变换,a是应用于连接[W h_i ‖ W h_j]的可学习注意力向量,LeakyReLU是激活函数,h_i'是节点i的更新表示。为了稳定训练并提高表示能力,应用了多头注意力:
h_i' = ‖_{k=1}^K σ(∑_{j∈N(i)} α_ij^k W^k h_j)
其中K是注意力头数,α_ij^k是头k在节点i和邻居j之间的归一化注意力系数,W^k是头k的可学习权重矩阵,h_i是节点i的输入特征向量,N(i)是i的邻居集合,σ是激活函数,‖表示连接各头的输出以形成更新后的表示h_i'。
时空图卷积网络(ST-GCN)扩展了GCN框架以处理时序图数据,这对于EEG信号尤为重要,因为EEG信号表现出空间和时间的依赖性。ST-GCN集成了信道信息重构、使用伯恩斯坦多项式进行谱图滤波,以及使用LSTM和全连接层进行时间特征提取以进行情绪分类。动态卷积神经网络(DCNN)与标准网格上的卷积层不同。在这种方法中,信号被允许在图上扩散,由拉普拉斯矩阵引导,从而使信息以结构化方式在节点间流动。扩散核,由K = exp(-tL)定义,定义了这种扩散方式,并使卷积运算对底层图结构敏感。之后,应用非线性激活,允许模型突出图数据中更细微和详细的模式。
在基于EEG的情绪识别中,研究人员通常探索多种深度学习架构来捕捉大脑信号复杂的时空特性。基于图的模型,如GCN、GAT、ST-GCN,以及基于扩散的变体(例如DCNN)经常被采用,因为它们各自强调EEG的不同方面:有些主要建模空间/信道间关系,而另一些则更好地捕捉时间动态。在一致的流水线下评估这些互补的建模选择有助于阐明它们的实际优势和局限性。
使用基于GCN方法的原理:研究人员纳入图卷积网络(GCN),因为EEG情绪识别在很大程度上依赖于信道间的交互,这自然形成了图结构:每个电极被建模为一个节点,边编码信道之间的空间/功能关系。与基于网格的卷积不同,GCN执行由邻接矩阵引导的邻域聚合,允许每个信道表示整合其连接邻居的信息,从而捕捉EEG中的非欧几里得连接模式。此外,GCN是图学习中一个经典的、计算效率高的基线模型,这对于研究人员的受控基准测试至关重要,可以量化基于注意力的建模(GAT)和时空扩展(ST-GCN)如何在相同实验流水线内改进经典的图卷积。
为了确保实验设计的完全可重复性和透明度,本研究中使用的所有架构配置和训练超参数均在表2中明确总结。四种基于图的模型GCN、GAT、ST-GCN和DCNN在深度范围为1到4层的受控设置下进行评估。为了保持一致性和公平性,常见的训练设置(优化器、学习率、批量大小和训练轮数)在所有模型之间保持一致。相反,特定于架构的参数(如隐藏维度、注意力头数和dropout率)则根据每个模型的架构设计进行配置。此全面的参数披露使得实验可以被准确复现。它能够在单一的基于EEG的情感识别流水线中,清晰地比较经典的图卷积、基于注意力的建模、时空图学习和受扩散启发的架构。
图构建部分,在本研究中,EEG数据被表示为图G=(V, E),其中每个EEG电极对应一个节点,信道间的关系被编码为边。具体而言,对于每个样本,研究人员形成一个具有N个节点(电极/信道)的图,其中节点特征矩阵记为X∈R^(N×F),F表示每个节点提取的特征数量(例如DE、PSD、ApEn和统计描述符)。本工作使用的邻接矩阵A是固定的(静态的),在所有实验和模型架构(GCN、GAT、ST-GCN和DCNN)中都是相同的。条目A_ij = 1表示节点i和节点j之间存在边,否则为0。图拓扑在训练和评估过程中保持不变,因此边集E不会随轮次、批次或模型配置而变化。这种设计选择确保了在模型之间观察到的性能差异主要源于架构的学习机制,而非图构建的变化。重要的是,研究人员没有基于功能连接性(例如从EEG信号计算的相关性/相干性)构建动态邻接矩阵,也没有应用基于相关性的阈值化来稀疏化图。因此,实验依赖于一个单一的、明确定义的图拓扑,并在整个研究过程中保持不变。在图构建流水线中没有使用任何阈值进行稀疏化。相同的固定A(以及对应的边索引表示)用于所有深度设置(1-4层),以确保对模型深度和架构进行公平和受控的比较。图构建之后,生成的图样本被存储,随后作为图数据集加载用于训练和验证,遵循相同的数据分割协议。
SEED-V数据集准备部分,本研究在SEED-V数据集上进行了验证,该数据集包含五类情绪:0:“厌恶”,1:“恐惧”,2:“悲伤”,3:“中性”,4:“快乐”。基于图1中的工作流程,数据集划分在特征转换阶段之后进行,产生图表示。在所有特征提取文件以.npz格式保存后,数据随后被转换为用于所用架构(GCN、GAT、ST-GCN和DCNN)的图数据集。在此阶段,数据集被明确划分为三个互斥的子集:训练集、验证集。划分过程在模型训练开始前执行,以确保子集之间没有重叠。训练集用于通过基于反向传播的优化学习模型参数。验证集用于监控训练过程,评估模型稳定性,并检测潜在的过拟合,而不影响已学习的参数。验证集专门用于最终评估和报告模型性能。此子集中的数据在训练或验证期间从未被使用。如图1所示,每种架构(GCN/GAT、ST-GCN和DCNN)遵循相同的划分程序,确保模型之间的性能比较一致且公平。因此,所有报告的准确率结果反映了在受控协议下基于验证集的模型性能。
在本研究中,M1、M2、VEO和HEO信道被移除。在重新参考后,M1和M2携带的价值很小,而眼电通道主要捕捉眼球运动而非大脑信号,因此排除它们可以提高数据质量。移除这些通道降低了数据维度,最小化了非神经噪声,并加速了分析,特别是在未应用独立成分分析(ICA)的情况下。研究人员用1-75 Hz的带通滤波器过滤EEG信号。低于1 Hz的是漂移,高于75 Hz的是噪声。通过这种方式,剩余的频率更清晰地捕捉到实际的大脑活动。因此,这是预处理阶段的关键部分,确保所分析的EEG数据具有高质量并包含相关的神经生理学信息。研究人员添加了50 Hz的陷波滤波器以去除工频噪声。这一频率在印度尼西亚和许多其他地区很常见,如果不加以去除,它会掩盖EEG中的实际大脑信号。陷波滤波器衰减50 Hz分量,同时保留其他重要频带。在应用带通和陷波滤波器之后,下一步是降采样以减少EEG数据量。原始记录以1000 Hz采样,产生大文件大小并需要大量计算资源。降采样到200 Hz有效地减少了数据量,而没有损害基本信号内容,因为主要的EEG节律在此分辨率下仍然能够充分表示。降采样不仅减少了数据大小,还有助于抑制高频噪声,这些噪声在带通滤波后已经无关紧要。此外,它降低了混叠风险,并通过使机器学习算法处理更少的样本提高了计算效率。通常,过滤在1-75 Hz范围内的EEG信号足以进行分析,因为该频谱覆盖了与神经生理活动相关的主要频带,包括从δ波到γ波。降采样到200 Hz在保留该范围内基本信息的同时,忽略了信息量较少的高频分量,而不会牺牲信号质量。尽管将采样率降低到200 Hz会降低时间分辨率,但它仍然足以捕捉关键的大脑活动模式。这种方法能够进行更高效和可解释的分析,特别是对于基于EEG的情绪分类研究。
在此步骤中,使用先前定义的开始和结束时间将情绪标签分配给EEG段。这种基于时间的标注方法在EEG研究中被广泛使用,因为它直接将每个标签与相应的信号片段联系起来。结果是一个已经包含情绪标签的数据集,可用于进一步分析。这种方法确保每个EEG片段都与特定的情绪状态一致关联,并以结构化的方式组织。下一个阶段是特征提取,其中计算微分熵(DE)。DE是连续信号中不确定性的度量。EEG帮助描述大脑活动在不同情绪状态下的变化。为了捕捉这些动态,每个EEG段被进一步划分为五个著名的频带:δ波、θ波、α波、β波和γ波。通过在每个频带内计算DE,研究人员获得了更丰富的信号描述,可以提高情绪识别模型的性能。在此阶段,研究人员使用功率谱密度(PSD)提取特征。简而言之,PSD显示了EEG信号在不同频率上的能量。为了计算它,研究人员使用了频谱方法,包括快速傅里叶变换(FFT)和Welch算法。之后,信号被分解为通常的五个频带,从δ波到γ波,以更清晰地捕捉它们的能量。在提取了诸如微分熵(DE)和功率谱密度(PSD)等频谱特征之后,研究人员继续进行基于复杂性的度量。在此,计算了近似熵(ApEn)以评估EEG信号的不规则性。ApEn量化了大脑活动模式的可预测性或随机性。在此阶段,对滤波和分割后的EEG信号进行分析,以计算每个信道和段的ApEn值。在计算了诸如近似熵(ApEn)等信号复杂性特征之后,研究人员还计算了简单的统计度量。在此阶段,提取了每个EEG段的均值和标准差。均值提供了信号平均水平的估计,而标准差则反映了数值围绕该平均值的波动程度。相比之下,标准差衡量了变异性,提供了对神经反应稳定性或波动的见解。在提取所有EEG特征(DE、PSD、ApEn和基本统计数据)之后,研究人员应用了Z-score归一化。此步骤重新缩放特征值,使其可以公平比较,不受不同测量尺度的影响。归一化有助于平衡每个特征的影响,支持更稳定的模型训练和更快的收敛。
预处理后,EEG数据被转换为图结构以用于图神经网络(GNN)。在此设置中,每个信道被视为一个节点,边通过电极的邻近性或其信号的相似性来定义。这种结构使GNN能够有效地建模大脑活动中的局部和全局交互。GNN将信息从一个节点传播到其邻居,因此每个EEG信道根据附近信道更新其特征。这个过程使GNN能够比CNN或RNN更有效地捕捉EEG数据中的空间和时间模式,后者通常忽略信道之间的显式关系。Chen等人(2024)证明,通过双注意力机制增强的图表示与传统基线相比,显著提高了情绪识别准确率。同样,Liu等人(2024)在其综合综述中强调了图表示对于基于EEG的情绪识别的重要性,指出GNN可以建模与情绪反应相关的大脑区域之间的复杂交互,而这是传统方法难以捕捉的方面。
如图1所示,EEG信号通过三种主要方法转换为图数据集。对于GCN和GAT,每个电极被表示为一个节点,图使用固定的空间邻接/拓扑结构,该结构在所有模型架构和深度配置中保持不变。未应用动态功能连接矩阵或相关阈值化程序。在此框架中,GCN使用邻接矩阵进行图卷积,而GAT引入注意力来重新加权节点连接。后来,Chen等人(2024)开发了DAMGCN,这是一种结合双注意力机制的扩展,以进一步提高从EEG数据中识别情绪的准确率。
结果部分,时空图卷积网络(ST-GCN)通过添加时间组件扩展了GCN,使其能够捕捉EEG信号的时间变化。在实践中,EEG数据被分割成片段,对于每个片段,创建一个图来显示信道之间的空间关系。这些图随后在时间上连接起来,形成一个时空图结构。GraphSleepNet是这个想法的一个例子,使用时空图对来自EEG的睡眠阶段进行分类。EEG被分割成三个时间窗口:节点是信道,垂直边显示空间连接,水平边代表时间变化。另一种选择是为DCNN准备数据。在这里,EEG信号被组织成一个反映活动随时间变化的矩阵或张量。这些信号可以转换为2D图像,例如地形图或时频图,DCNN将其作为输入。虽然这种方法不显式依赖于图结构,但生成的表示可以被解释为隐式图,反映了信道间关系和时间动态。这种表示与基于CNN的EEG特征提取策略一致,其中CNN架构可以从EEG输入中学习有区别的时频模式。
将EEG数据集转换为图表示后(如图1所示),本研究的下一阶段是构建和训练基于图结构和动态卷积的深度学习模型。在本研究中,使用了四种架构:图卷积网络(GCN)、图注意力网络(GAT)、时空图卷积网络(ST-GCN)和动态卷积神经网络(DCNN)。每种架构都因其在建模EEG信号空间和时间方面的优势而被选中。实验分阶段进行,从第1层到第4层,以评估模型深度如何影响不同架构的分类准确率。训练、验证和分类过程的可视化突出了这些模型的比较性能,完整的结果总结在表3和表4中。
表3详细列出了GCN、GAT、ST-GCN和DCNN模型在各层的训练指标,包括训练准确率、损失、验证准确率、精度、召回率、F1分数、时间和曲线稳定性。表4总结了这些模型在不同层配置下的训练行为。所有模型均使用Adam优化器(lr=0.001)训练200个轮次,批量大小为64(训练)和32(验证)。GCN/GAT/ST-GCN使用加权交叉熵损失以处理类别不平衡,而DCNN使用标准交叉熵。
GCN和GAT将EEG信道表示为静态图。GCN使用邻接矩阵更新节点,而CU-GCN添加了信道链接的不确定性,使模型对大脑变异性更具灵活性,并提高了情绪识别。图注意力网络(GAT)通过添加注意力机制扩展了这一思想。它根据局部重要性自适应地为EEG信道之间的链接分配权重。这允许模型突出最具信息量的信道间连接。Zhu等人(2022)提出了LTS-GAT模型,该模型将局部时空模式学习与注意力机制集成,并证明在基于EEG的情绪识别任务中性能有所提升。GAT模型的训练、评估和分类结果如图8所示。图8展示了不同深度GAT模型的性能。单层GAT训练平滑,损失稳步下降,而准确率略有提高。然而,当情绪具有相似模式时,它会犯错。三层时,模型增强了其特征表示,对悲伤和快乐情绪给出了更好的结果。四层GAT训练稳定,在所有类别中都达到了高精度,没有明显的过拟合。这表明更深的模型能更有效地捕捉EEG模式,从而提高整体识别率。
同时,时空图卷积网络(ST-GCN)被用来建模EEG信号的时间动态性。该模型构建了一系列图,并将时间信息与信道间的空间结构相结合。这种方法在检测情绪状态变化期间出现的瞬态模式方面非常有效,尤其是在像EEG这样的非平稳信号中。ST-GCN的训练、评估和分类结果也在表3和表4中报告。
DCNN将EEG表示为信道和时间的二维矩阵。即使没有显式图结构,其卷积层也能学习空间和时间关系。这种方法广泛用于生物电信号的分类。DCNN的训练、评估和分类结果也在表3和表4中报告。
所有实验都在相同的训练设置下运行,以允许模型之间的公平比较。评估依赖于典型的分类指标:准确率、精度、召回率和F1分数。这些指标随后被用来判断每个模型对基于EEG的情绪识别的贡献。汇总的评估结果如表3和表4所示。报告的性能指标代表了训练动态和基于验证集的评估。由于在此实验设置中未使用独立测试集,因此不应将其解释为留出测试集的结果。
讨论部分,实验比较了不同深度下的四种架构:GCN、GAT、ST-GCN和DCNN。分析了三个方面:训练有效性、模型稳定性和过拟合风险。GCN从34.77%稳步提升至47.14%,显示出可靠的收敛性,但提升速度慢于其他模型。GAT取得了最佳结果,在2-4层配置中训练/验证准确率均超过97%。准确率的急剧上升表明可能存在过拟合。ST-GCN从35.01%上升到50.50%,证明其能够捕捉时空特征,尽管速度较慢。DCNN作为基线,得分最低,为35.45%,反映了其在建模空间模式方面的弱点。总体而言,更深的网络并不总是更好,因为DCNN和ST-GCN在三层之后都出现了平台期。
研究表明,GAT通过利用注意力机制在情绪分类方面表现最佳。ST-GCN通过建模时间增加了价值。DCNN和GCN表现较差,揭示了它们在处理EEG时的局限性。总体而言,基于图的模型在表示大脑连接性方面具有优势。
尽管如此,本研究存在几个局限性。由于模型仅在可用数据上训练,存在过拟合风险。一些超参数未被探索,且架构保持固定。此外,研究人员没有分析训练时间或计算效率,这两者对于实时或边缘设备使用都很重要。未来的工作应通过引入验证数据集、采用神经架构搜索(NAS)以及评估现实场景中的计算效率来解决这些问题。
未来的工作应利用外部数据集来提高泛化能力。添加正则化、使用多模态输入(如EEG加眼动追踪)以及测试动态图学习都可以帮助更有效地捕捉大脑活动。
本工作与Chen (2024)、Liu (2022)和Wu (2022)的研究进行了比较。回顾了六个方面:架构、数据集、范围、结果、时间分析和贡献。研究人员使用了多种GNN(GCN、GAT、ST-GCN和DCNN)在SEED-V数据集上,系统地验证了模型性能以及层深度对基于EEG情绪分类的影响。这项工作的关键贡献是对经典GNN和时空模型的层深度(1-4层)进行了系统研究。研究结果表明,中间深度往往能带来最佳结果,尤其是在GAT和ST-GCN中,而DCNN则持续表现不佳。研究表明,层深度在基于EEG情绪任务的GNN设计中起着关键作用,GAT在处理复杂模式方面特别有效。表5和表6提供了与早期研究的详细比较。
表5比较了当前研究与先前研究在架构方面和研究发现。本研究使用了GCN、GAT、ST-GCN、DCNN,在SEED-V数据集上(5个情绪标签,DE预处理+时间分割),实验重点是比较基于图的EEG(1-4层)的模型性能和层深度,关键发现是GAT表现最佳,尤其在2-3层;DCNN表现不佳。ST-GCN结果稳定,但收敛速度慢于GAT。新贡献是对用于EEG分类的经典和时空GNN模型进行了层深度研究。与Chen等人(2024)的时空图神经网络(ST-GNN)相比,本研究的关键发现一致,即注意力模型和时空网络擅长表示EEG中的时空动态。与Liu等人(2022)的多模态方法(如DCCA和BDAE)相比,本研究支持EEG信号作为主要模态的力量,并强调了探索能够捕捉特征间相关性的架构的重要性,正如GAT的有效性所证明的。与Wu等人(2022)的STGATE相比,本研究支持基于图的结构和时空建模比CNN在从EEG识别情绪方面更有效的结论。当前研究的新贡献是提供了关于层深度对GNN性能影响的新见解。
表6比较了先前研究发现与当前研究。本研究的发现与Chen等人(2024)一致,即注意力模型和时空网络在表示EEG的时空动态方面表现出色。也支持了Liu等人(2022)关于EEG作为主要模态的强度,以及Wu等人(2022)关于基于图的结构优于CNN的结论。
3.2.1. 与类似方案相比的优势和局限性
3.2.1.1. 优势
与通常提出单一架构或报告单一固定配置的类似EEG情绪识别方案相比,研究人员的方法在一致的预处理和特征提取流水线(滤波、降采样、分割/标记、Z-score归一化和多特征提取,如DE、PSD、ApEn和统计描述符)下,提供了一个受控的、跨四种代表性模型(GCN、GAT、ST-GCN、DCNN)的架构基准。这种设计使得比较更加公平,减少了先前研究中因协议差异造成的模糊性。此外,研究人员提供了超越最终准确率的训练动态证据,包括跨深度(1-4层)的准确率-损失轨迹、收敛稳定性和过拟合迹象。因此,本研究为选择架构和深度提供了可操作的指导,表明在中等深度(2-3层)下基于注意力的图学习(GAT)能产生强劲的性能并具有稳定的收敛性。同时,时空建模(ST-GCN)能更好地捕捉时间依赖性,但代价是更长的训练时间。
3.2.1.2. 局限性
首先,当前评估报告的是训练/验证上的结果,没有独立测试集,因此无法完全声称对未见被试或会话的泛化能力。其次,尽管研究比较了多种架构和深度,但并未详尽地探索图构建策略的设计空间(例如不同的连接定义、自适应/动态边),也未进行广泛的超参数优化。第三,本文稿目前缺乏专门的计算效率分析(训练/推理成本、内存占用),这对于实时或边缘部署很重要,尤其是考虑到观察到的时空模型较长的训练时间。最后,研究专注于仅使用EEG的设置,而类似的方案利用了多模态信息(例如EEG加眼动追踪),这可能提高对噪声或缺失模态的鲁棒性。
3.2.2. 与类似方案的定位
因此,研究人员的贡献应被解释为在受控协议下架构/深度选择的实用参考,补充(而非替代)专用方案,如动态/自适应时空注意力模型或多模态融合方法。未来的工作将通过引入严格的训练/验证协议(例如跨被试评估)、评估效率以及将框架扩展到多模态或动态图学习来解决这些局限性。总之,与单模型提案相比,研究人员工作的主要优势是协议一致的基准测试和对训练行为的深度感知分析;与自适应时空或多模态方案相比,其局限性在于缺乏自适应边学习和多模态融合。因此,这项研究最好定位为在SEED-V上选择模型族和深度的指南。
为了阐明研究人员方法与类似方案之间的关系,表7总结了比较优势、局限性和推荐用例。表7将研究人员的深度感知基准与常见的EEG图学习方案进行了比较,包括注意力增强模型、时空方案、动态/自适应图学习和多模态融合系统。
3.2.3. 通过注意力权重对GAT进行可解释性分析
为了证明使用GAT超越分类指标的合理性,研究人员分析了多头注意力机制产生的学习到的注意力系数α_ij。对于每个GAT层,研究人员提取了所有边的α_ij,并跨注意力头(跨头取均值)进行聚合。然后计算:(i)边重要性,即所有验证样本上α_ij的平均值;(ii)节点重要性,即与每个节点(信道)相关的传入/传出注意力权重的总和。为了提高鲁棒性,对重要性得分进行了归一化,并按情绪类别和总体进行了汇总。
生成的边重要性模式被可视化为注意力加权连接图,而节点重要性得分则使用标准的10-20电极位置投影到EEG头皮地形图上。此分析突出显示了哪些信道到信道的连接和哪些头皮区域对情绪判别贡献最大,为GAT相对于非注意力基线的性能优势提供了可解释性证据。为严格验证所提出的GAT模型的可解释性,研究人员从验证数据集中提取了学习到的注意力系数α_ij。这些系数代表了EEG信道之间信息流的重要性。提取的权重被聚合以识别最关键的连接(边)和最具影响力的大脑区域(节点),这些节点对情绪分类贡献最大。表8详细列出了注意力得分最高的前20条边,有效地映射了图的主要通信路径。
表8列出了前20个节点注意力权重(边)和重要性。排名1-20的边均从FP1节点出发,目标节点包括CZ、CPZ、C2、CP4、FC2等,权重在0.022左右。节点重要性排名显示,FP1(左前额叶皮层)归一化得分最高(1.0000),其次是CZ(0.8921)、C2(0.8845)、CPZ(0.8712)等。
如表8所示,注意力机制揭示了一种高度一致、符合生物学合理性的拓扑结构。最引人注目的发现是FP1(左前额叶皮层)作为所有前20个连接的源节点的绝对主导地位。这表明模型已经学会将前额区域视为情绪处理的主要“广播器”或控制中心。最强的注意力权重α被分配给FP1→CZ连接,其次是连接到中线中央-顶叶(CPZ)和右侧中央(C2)区域的连接。这种连接模式表明存在强大的额叶到中央的信息流。从神经生理学角度来看,这与大脑的情绪调节机制一致,即前额叶皮层的执行功能调节感觉运动皮层(中央区域)和联合区域(顶叶区域)的活动。表9进一步量化了单个电极的贡献,聚合了它们的传入和传出注意力权重。与边分析一致,FP1是最关键的节点,归一化重要性得分为1.0000。重要性排名紧随FP1之后的是位于中央(例如CZ、C2、C1)和中央-顶叶(例如CPZ、CP4)区域的信道。这证实了情绪调节(额叶)和生理/运动反应整合(中央)之间的交互是GAT模型最具判别性的特征。在排名14-20中,可以看到顶叶信道(例如PZ、P2、P4)的出现。这些区域与空间意识和多模态整合相关,表明模型捕捉到了一个从前极延伸到后头皮的全局网络。总之,GAT模型并非依赖于随机噪声;而是自主地优先考虑一个结构化的额叶-中央-顶叶网络,验证了其从原始EEG数据中学习有意义的神经生理依赖性的能力。
图9(a)可视化了GAT模型学习到的网络拓扑。如图所示,连接图显示出非常清晰的“星型拓扑”模式,其中FP1(左额极)充当信息分发中心。几乎所有具有最高注意力权重(粗红线)的连接都源于FP1,并辐射到后部区域,特别是中央(CZ、C1、C2)和中央-顶叶(CPZ、CP1、CP2)区域。这种模式表明GAT模型自动学习到情绪分类最具判别性的特征在于前额叶(执行/情绪)和感觉运动(身体/躯体反应)区域之间的信号同步。其他区域缺乏显著的随机连接表明该模型成功过滤了噪声,只关注了相关的神经通信通路。图9(b)呈现了节点重要性得分在头皮上的空间投影。颜色分布证实了连接性分析的结论,即左前额叶(FP1)区域作为主要的“热点”,具有最高的红色强度(归一化得分=1.0)。除了额叶区域的主导地位外,该图还显示了沿中线向中央和顶叶区域显著的次级激活(橙色/黄色)。相反,颞叶和枕叶区域(蓝色)获得的权重较低,表明在本数据集中,视觉和听觉区域对情绪识别任务的贡献小于认知和躯体感觉处理区域。从神经生理学角度来看,该图验证了模型分离前额叶皮层活动作为主要情绪生物标志物的能力。图9(a)和图9(b)中的视觉分析结论相互印证。连接图(图9(a))揭示了额叶和顶叶之间的动态交互,而地形图(图9(b))证实了最重要特征的来源定位于电极FP1。这两种可视化的结合证明GAT并非作为“黑箱”运行,而是捕捉到了有效的神经科学模式。
局限性与未来工作部分,本研究确实存在一些局限性。首先,模型测试仅在训练和验证数据上进行,没有独立的测试集,因此达到的高准确率并不能完全反映对新数据的泛化能力。其次,超参数搜索范围有限,模型架构保持相对简单。进一步的局限性在于缺乏对计算效率和训练时间的分析,而这些因素对于实时系统和边缘计算部署实际上是至关重要的。未来的调查可以通过纳入独立测试集或采用交叉验证、通过补充正则化策略拓宽超参数探索范围,以及进行更详细的计算效率评估来加强这些发现。整合多模态信号,例如将EEG与眼动追踪相结合,并利用动态图学习方法,也可以显著提高情绪分类的准确率。
结论部分,本研究探讨了图神经网络(GNN)在从脑电图(EEG)信号识别人类情绪方面的应用,EEG信号在处理大脑活动的非线性方面被认为优于传统的线性方法。使用包含五类情绪的SEED-V数据集,本研究实施了一系列全面的数据处理步骤,从信号预处理(例如带通滤波和降采样)到特征提取(包括微分熵、PSD和ApEn)。然后,数据被表示为静态图结构,以在受控实验场景中评估四种不同图学习模型架构(GCN、GAT、ST-GCN、DCNN)的性能。实验结果表明,图注意力网络(GAT)在两到三层的配置中表现始终最佳,验证准确率超过97%。GAT的优势在于其注意力机制,该机制优先考虑最相关的电极间连接性,特别是在额叶-中央-顶叶网络中,其中电极FP1被确定为最关键的节点。相比之下,虽然ST-GCN展示了强大的时空依赖性建模能力,但它需要更长的训练时间;GCN提供了稳定但适中的改进;DCNN在四种模型中记录了最低的性能。总的来说,本研究得出结论,注意力机制和模型深度是提高基于EEG的情绪识别系统准确性和稳定性的重要因素。在本研究使用的基于验证集的协议下,最佳网络深度被发现为2-3层。然而,由于未使用独立的留出测试集或跨被试协议,未来的工作应使用更严格的评估设置来验证这些发现。此外,未来的研究应探索动态图学习和多模态集成,以获得更自适应和可泛化的基于EEG的情绪识别模型。因此,建议未来的研究探索动态图学习和多模态集成,以获得更自适应的结果。