MBDA:一种结合数据增强和对齐的多模态情感识别框架,旨在实现多种情感表达的平衡识别

时间:2026年3月29日
来源:Neural Networks

编辑推荐:

多模态情绪识别框架MBDA通过模态感知数据增强、多水平特征对齐和反事实知识蒸馏解决模态不平衡与数据不足问题,在DEAP和SEED-IV数据集上准确率分别达93.86%-95.11%。

广告
   X   

程成|尚瑞思|王子旭|李华志|贾子宇
辽宁师范大学心理与脑科学研究所,中国大连黄河路850号,116029

摘要

多模态情感识别(MER)旨在通过整合来自不同模态的互补信息来推断人类的情感状态。然而,现有的MER方法常常存在模态不平衡、跨模态不对齐以及数据多样性有限的问题,这些问题阻碍了它们的鲁棒性和泛化能力。为了解决这些问题,我们提出了一个结合数据增强和对齐的模态平衡框架(MBDA),该框架以渐进式学习的方式将模态感知增强、特征对齐和反事实知识蒸馏整合到一个统一的框架中。MBDA通过模态感知增强提高了数据多样性,同时保持了语义一致性;通过跨模态的强健对齐确保了鲁棒性;并通过反事实知识蒸馏动态地重新平衡了各模态的贡献。在DEAP和SEED-IV数据集上的实验表明,MBDA的表现始终优于现有方法,在DEAP-A、DEAP-V、DEAP-AV和SEED-IV上的准确率分别达到了93.86%、95.11%、91.02%和92.66%。

引言

情感是人类交流的重要组成部分,对我们在日常生活中的思维、行为以及与他人建立联系的方式有着深远的影响。然而,由于人类情感表达的复杂性,单一模态的方法往往不够充分。多模态情感识别(MER)通过整合语音、面部表情和生理信号等数据,提供了对人类情感更全面和可靠的理解(Wu等人,2025年),因此成为情感计算(AC)和人机交互(HCI)领域的关键方向。
在这些模态中,生理信号(如心率、皮肤电导率和脑电图(EEG)数据)可以直接反映神经活动。它们提供了客观且敏感的情感唤醒指标,并且对外部干扰有很强的抵抗力,非常适合捕捉真实的情感状态(Lian等人,2023年)。然而,这些信号依赖于专门的采集设备,并且缺乏明确的环境或语义解释性,这限制了它们的应用。相比之下,非生理模态(如面部表情和眼球运动)直观且富含上下文信息,但更容易受到环境因素、文化差异和个人行为的影响,从而降低了其稳定性。将EEG与面部表情或眼球运动相结合,可以使每种模态互补对方的不足:EEG提供可靠的神经证据,而面部或眼球运动信号则提供直观且有语义意义的线索。因此,这种多模态融合能够更全面和可靠地表示情感状态(Vairamani,2024年),这对于推进MER研究尤为重要。
然而,由于不同模态在数据质量、信号类型和噪声鲁棒性方面的差异,模型在训练过程中容易出现模态不平衡。具体来说,质量更高、鲁棒性更强的模态往往在预测中占主导地位,而信息不足或易受干扰的模态则常被忽视。为了解决这个问题,已经开发了许多平衡策略,包括基于样本重组的数据混合(Ma等人,2025年)、动态加权的Ada2I模型(Nguyen等人,2024年)以及持续增强机制(Jiang等人,2025年)。然而,这些方法大多依赖于静态或预定义的规则,缺乏基于上下文的动态适应能力。结果,较弱的模态可能会被主导模态掩盖,导致模型忽略它们的信息并过度依赖主导模态,从而降低了整体鲁棒性。因此,如何构建一个动态适应的模态平衡机制仍然是当前MER研究中的一个关键挑战。
其次,MER经常面临样本稀缺和噪声干扰的问题,这些问题会削弱模型训练的稳定性和预测的可靠性。为了解决这些问题,已经提出了各种数据增强策略。例如,生成对抗网络(GANs)(Liu等人,2023年)、基于混合的增强方法(Cai等人,2024年)和扩散模型(Siddhad等人,2024年)可以扩展训练数据集、丰富少数类样本并提高模型的适应性。尽管这些方法在一定程度上缓解了数据不平衡和噪声问题,但它们也引入了新的挑战。过度或不一致的增强可能会破坏模态内的语义结构,导致特征空间漂移并降低训练稳定性。此外,不同模态之间的增强不均衡会加剧跨模态不对齐,削弱语义一致性,最终降低识别性能。因此,如何在保持模态内和跨模态语义一致性的同时通过不同强度的增强来提高样本质量,仍然是MER研究中的一个关键挑战。
此外,跨模态的特征对齐仍然是MER中的一个关键挑战。由于多模态信号的异质性,它们的分布形式、语义表示和区分能力存在显著差异。因此,简单的连接或维度映射无法充分利用它们的互补优势。如果没有有效的对齐,高级表示可能会出现语义不匹配,从而降低融合性能和识别准确性。为了解决这个问题,研究人员研究了不同的策略,如用于显式对齐的跨模态注意力(Chen和Zhang,2024年)和用于隐式对齐的对比学习(Zhao等人,2024年)。尽管这些方法改善了静态对齐和语义一致性,但它们往往忽略了在不同增强强度下同一模态内的表示一致性,使得模型容易受到模态内漂移的影响。因此,在增强过程中实现鲁棒的跨模态语义对齐同时保持模态内一致性,仍然是推进MER的一个关键挑战。
为了解决上述问题,我们提出了MBDA框架,该框架将模态感知数据增强、多级特征对齐和反事实知识蒸馏整合到一个统一的框架中。具体来说,模态感知数据增强与对比一致性学习相结合,以在保持原始信号语义完整性的同时提高样本多样性;多级特征对齐确保了模态内和模态间的语义一致性,从而在不同增强强度下实现可靠的跨模态交互;反事实知识蒸馏动态地调整了不同模态的贡献,增强了较弱的模态并抑制了来自主导模态的冗余信息。这些模块并非孤立运行,而是以闭环、因果驱动的方式相互作用。增强强度影响对齐目标,对齐一致性指导蒸馏过程,蒸馏模块在训练过程中动态调整模态贡献。这种集成方法确保了这三个组成部分相互增强,实现了鲁棒的跨模态语义对齐,增强了较弱模态的表示,并提高了整体情感识别性能。与传统方法相比,MBDA建立了一个相互依赖的优化过程,而不是依赖于简单连接或独立组件的模块化堆叠。这种新颖的设计充分利用了不同模态的互补信息,同时保持了模态内的一致性,为MER提供了一个更有效和鲁棒的框架。
本研究的主要贡献可以总结如下:
  • 1.
    我们提出了一个统一的模态平衡框架(MBDA),用于MER,该框架在单一学习范式中联合建模多个模态、增强强度和语义层次。与以往的方法不同,该框架利用了增强、对齐和蒸馏之间的相互依赖性,形成了一个闭环优化过程。
  • 2.
    我们引入了一种多级和多视图对齐机制,该机制同时在不同增强强度下确保模态内一致性,并在不同模态之间实现跨模态语义对齐。这确保了对增强引起的分布变化的鲁棒性,并在现实的训练扰动下保持了语义一致性。
  • 3.
    我们设计了一个反事实知识蒸馏模块,该模块构建了跨模态排名关系和反事实样本,动态调整模态贡献权重。通过明确考虑模态之间的相互作用,该框架增强了较弱模态的性能,减少了主导偏见,并进一步提高了MER的准确性和鲁棒性。
  • 部分摘录

    MER中的模态不平衡

    在MER中,模态不平衡会导致主导模态掩盖较弱模态,从而降低模型的整体性能和鲁棒性。为了解决这个问题,研究人员开发了多种减少模态偏见的方法。例如,Nguyen等人(2024年)提出了Ada2I模型,该模型在特征和模态层面应用了双层自适应平衡,并使用差异比率指标来调整较弱模态的权重。Li等人(2023b)设计了...

    方法

    所提出的MBDA模型如图1所示。首先,模型从原始的EEG和面部输入中提取浅层特征。然后,这些特征通过弱增强和强增强策略进行增强,并由特定于模态的编码器处理以获得深度表示。接下来,通过教师-学生蒸馏和反事实加权进行模态平衡,以确保公平的贡献,之后进行跨模态对齐。最后,进行融合和分类以识别情感。

    DEAP数据集

    DEAP数据集(Koelstra等人,2011年)包含了32名参与者在观看40个一分钟音乐视频片段时的EEG和周围生理记录,这些视频片段旨在引发情感反应。EEG信号是使用符合国际10-20系统的32个电极采集的,同时记录了所有22名参与者的面部视频。在我们的实验中,我们仅使用了那些有面部记录的参与者的EEG数据。

    讨论

    在这项研究中,提出的MBDA框架显著提高了MER的准确性,特别是在EEG、面部表情和眼球运动数据的融合方面。然而,尽管结果令人鼓舞,但仍需要更深入的分析来识别改进的潜在领域和方法的局限性。

    结论

    本文提出了MBDA,这是一个结合数据增强和对齐的统一模态平衡框架,用于MER。通过解决模态不平衡、跨模态不一致性和数据多样性有限等问题,MBDA通过数据增强、多级特征对齐和反事实知识蒸馏提高了模型性能。弱增强和强增强的结合增加了数据多样性,而特征对齐确保了跨模态一致性。

    CRediT作者贡献声明

    程成:撰写——原始草案、方法论、资金获取、概念化。尚瑞思:可视化、方法论、调查。王子旭:方法论。李华志:撰写——审阅与编辑、可视化、方法论。贾子宇:撰写——审阅与编辑、监督、形式分析。

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

    生物通微信公众号
    微信
    新浪微博


    生物通 版权所有