情感是人类交流的重要组成部分,对我们在日常生活中的思维、行为以及与他人建立联系的方式有着深远的影响。然而,由于人类情感表达的复杂性,单一模态的方法往往不够充分。多模态情感识别(MER)通过整合语音、面部表情和生理信号等数据,提供了对人类情感更全面和可靠的理解(Wu等人,2025年),因此成为情感计算(AC)和人机交互(HCI)领域的关键方向。
在这些模态中,生理信号(如心率、皮肤电导率和脑电图(EEG)数据)可以直接反映神经活动。它们提供了客观且敏感的情感唤醒指标,并且对外部干扰有很强的抵抗力,非常适合捕捉真实的情感状态(Lian等人,2023年)。然而,这些信号依赖于专门的采集设备,并且缺乏明确的环境或语义解释性,这限制了它们的应用。相比之下,非生理模态(如面部表情和眼球运动)直观且富含上下文信息,但更容易受到环境因素、文化差异和个人行为的影响,从而降低了其稳定性。将EEG与面部表情或眼球运动相结合,可以使每种模态互补对方的不足:EEG提供可靠的神经证据,而面部或眼球运动信号则提供直观且有语义意义的线索。因此,这种多模态融合能够更全面和可靠地表示情感状态(Vairamani,2024年),这对于推进MER研究尤为重要。
然而,由于不同模态在数据质量、信号类型和噪声鲁棒性方面的差异,模型在训练过程中容易出现模态不平衡。具体来说,质量更高、鲁棒性更强的模态往往在预测中占主导地位,而信息不足或易受干扰的模态则常被忽视。为了解决这个问题,已经开发了许多平衡策略,包括基于样本重组的数据混合(Ma等人,2025年)、动态加权的Ada2I模型(Nguyen等人,2024年)以及持续增强机制(Jiang等人,2025年)。然而,这些方法大多依赖于静态或预定义的规则,缺乏基于上下文的动态适应能力。结果,较弱的模态可能会被主导模态掩盖,导致模型忽略它们的信息并过度依赖主导模态,从而降低了整体鲁棒性。因此,如何构建一个动态适应的模态平衡机制仍然是当前MER研究中的一个关键挑战。
其次,MER经常面临样本稀缺和噪声干扰的问题,这些问题会削弱模型训练的稳定性和预测的可靠性。为了解决这些问题,已经提出了各种数据增强策略。例如,生成对抗网络(GANs)(Liu等人,2023年)、基于混合的增强方法(Cai等人,2024年)和扩散模型(Siddhad等人,2024年)可以扩展训练数据集、丰富少数类样本并提高模型的适应性。尽管这些方法在一定程度上缓解了数据不平衡和噪声问题,但它们也引入了新的挑战。过度或不一致的增强可能会破坏模态内的语义结构,导致特征空间漂移并降低训练稳定性。此外,不同模态之间的增强不均衡会加剧跨模态不对齐,削弱语义一致性,最终降低识别性能。因此,如何在保持模态内和跨模态语义一致性的同时通过不同强度的增强来提高样本质量,仍然是MER研究中的一个关键挑战。
此外,跨模态的特征对齐仍然是MER中的一个关键挑战。由于多模态信号的异质性,它们的分布形式、语义表示和区分能力存在显著差异。因此,简单的连接或维度映射无法充分利用它们的互补优势。如果没有有效的对齐,高级表示可能会出现语义不匹配,从而降低融合性能和识别准确性。为了解决这个问题,研究人员研究了不同的策略,如用于显式对齐的跨模态注意力(Chen和Zhang,2024年)和用于隐式对齐的对比学习(Zhao等人,2024年)。尽管这些方法改善了静态对齐和语义一致性,但它们往往忽略了在不同增强强度下同一模态内的表示一致性,使得模型容易受到模态内漂移的影响。因此,在增强过程中实现鲁棒的跨模态语义对齐同时保持模态内一致性,仍然是推进MER的一个关键挑战。
为了解决上述问题,我们提出了MBDA框架,该框架将模态感知数据增强、多级特征对齐和反事实知识蒸馏整合到一个统一的框架中。具体来说,模态感知数据增强与对比一致性学习相结合,以在保持原始信号语义完整性的同时提高样本多样性;多级特征对齐确保了模态内和模态间的语义一致性,从而在不同增强强度下实现可靠的跨模态交互;反事实知识蒸馏动态地调整了不同模态的贡献,增强了较弱的模态并抑制了来自主导模态的冗余信息。这些模块并非孤立运行,而是以闭环、因果驱动的方式相互作用。增强强度影响对齐目标,对齐一致性指导蒸馏过程,蒸馏模块在训练过程中动态调整模态贡献。这种集成方法确保了这三个组成部分相互增强,实现了鲁棒的跨模态语义对齐,增强了较弱模态的表示,并提高了整体情感识别性能。与传统方法相比,MBDA建立了一个相互依赖的优化过程,而不是依赖于简单连接或独立组件的模块化堆叠。这种新颖的设计充分利用了不同模态的互补信息,同时保持了模态内的一致性,为MER提供了一个更有效和鲁棒的框架。
本研究的主要贡献可以总结如下:
1.我们提出了一个统一的模态平衡框架(MBDA),用于MER,该框架在单一学习范式中联合建模多个模态、增强强度和语义层次。与以往的方法不同,该框架利用了增强、对齐和蒸馏之间的相互依赖性,形成了一个闭环优化过程。
2.我们引入了一种多级和多视图对齐机制,该机制同时在不同增强强度下确保模态内一致性,并在不同模态之间实现跨模态语义对齐。这确保了对增强引起的分布变化的鲁棒性,并在现实的训练扰动下保持了语义一致性。
3.我们设计了一个反事实知识蒸馏模块,该模块构建了跨模态排名关系和反事实样本,动态调整模态贡献权重。通过明确考虑模态之间的相互作用,该框架增强了较弱模态的性能,减少了主导偏见,并进一步提高了MER的准确性和鲁棒性。