通过统一的粒度对比学习和类似的负样本区分来实现的多模态情感识别

生物通首页 > 今日动态 > 正文

通过统一的粒度对比学习和类似的负样本区分来实现的多模态情感识别

时间：2026年2月6日

来源：Pattern Recognition

编辑推荐：

情感识别的跨模态特征对齐与难样本区分问题，提出统一粒度对比学习策略和相似负样本鉴别模块，有效解决跨模态特征粒度不匹配及难样本区分问题，在CREMA-D和IEMOCAP数据集上性能优于现有方法。

李永伟|高伟|李建武

中国科学院心理研究所认知科学与心理健康国家重点实验室，北京，100101，中国

摘要

音视频情感识别在推动人机交互方面发挥着关键作用，它使系统能够感知用户的情感状态。尽管最近的进展主要集中在音视频特征的融合和对齐上，但现有方法往往忽略了两个关键挑战：（1）不同粒度级别上的音视频特征对齐问题；（2）如何有效区分具有高度相似特征表示但属于不同情感类别的难负样本。为了解决这些限制，我们提出了一个新颖的音视频情感识别框架。首先，我们引入了一种统一的粒度对比学习策略，该策略使用共享的向量空间来协调不同粒度的特征，从而实现更一致的跨模态对齐。其次，为了提高类别区分能力，特别是在存在难负样本的情况下，我们提出了一个类似的负样本区分模块，该模块利用辅助分类头来明确区分不同模态中语义相似但类别不同的样本。在两个广泛使用的基准数据集CREMA-D和IEMOCAP上进行的广泛实验表明，我们的方法取得了最先进的性能，验证了所提出方法的有效性。我们的源代码可在以下链接获取：https://github.com/gaoweibit/multi-modal_emotion_recognition。

引言

情感识别已成为情感计算、人机交互和智能系统中的一个核心研究课题，因为它在服务机器人[1]和心理健康监测[2]等领域具有广泛的应用。情感本质上是复杂的，并通过各种模态表达出来[3]，如面部表情、声音特征、身体姿态、语言内容和生理信号[4]、[5]。由交感神经系统调节的生理信号不受自愿控制，因此它们是更可靠的信息来源。然而，捕捉准确的生理信号具有挑战性且不方便，因为需要使用专门的可穿戴传感器[6]。相比之下，视觉和听觉模态更具可访问性和非侵入性，构成了人类情感交流最直接和自然的渠道。因此，音视频情感识别作为多模态情感计算中的核心任务引起了极大的兴趣。

多模态情感识别的研究主要集中在如何有效地融合异构特征，以便对齐来自不同模态的互补信息。早期的工作主要集中在整合音频和视觉信息的音视频融合策略上[7]、[8]。这些方法通常依赖于特征级融合（将特定模态的特征连接起来[9]），或决策级融合（将来自各个模态的预测结合起来[10]、[11]。随着更先进的融合方法的发展，基于模型的融合方法逐渐受到重视[12]。这些方法在模型的中间层进行融合，允许特定模态的特征相互作用并共同处理。通过结合这些交互，基于模型的融合更好地利用了深度神经网络的能力，实现了更复杂和有效的多模态数据融合。尽管这些方法在计算上高效且易于实现，但它们通常以相对浅层的方式捕捉跨模态交互，这限制了它们模拟模态间复杂依赖性的能力。

为了增强跨模态交互建模，基于注意力的架构，特别是跨注意力（即两个或三个模态之间的注意力）变得越来越重要。跨注意力能够实现音频和视觉序列之间的动态信息交换，并在多模态情感识别中表现出强大的性能[13]。基于这一范式，后续研究进一步扩展了这一范式，加入了用于保持模态内表示的自注意力[14]、用于序列对齐的门控机制[15]、用于层次特征建模的多尺度注意力[16]，以及跨注意力机制的结构改进[17]。尽管取得了这些进展，大多数现有的基于跨注意力的方法隐含地假设音频和视觉特征在相同的表示粒度上是可比的。然而，对于一对音频和视频数据，两种模态的采样频率总是不同的。实际上，音频和视频数据是在不同的时间分辨率下采样的，从两种模态提取的特征单元并不对应于相同的时间位置。这种粒度不一致性阻碍了有效的跨模态对齐，从而限制了下游情感识别的性能。

与此同时，对比学习作为一种提高多模态学习中表示对齐和鲁棒性的策略得到了越来越多的探索[18]、[19]。通过对正负样本对进行对比，对比学习鼓励了紧凑的类内表示并提高了类间可分性。这些目标也被引入到音视频情感识别（AVER）中，从而提高了泛化性能。例如，Wang[20]提出了三种不同的面向任务的后验嵌入增强技术来生成用于对比学习的正训练对。Li[21]的JOYFUL框架整合了模态融合和图对比学习。在这种方法中，多模态融合、对比学习和情感识别同时得到优化。它引入了一个图对比学习框架，该框架结合了视图间和视图内的对比损失，使模型能够学习来自不同情感类别的更具区分性的表示。然而，现有的AVER对比学习方法通常忽略了特定模态的粒度，这可能会阻碍对齐并降低对比目标的有效性。

最近的研究认识到在情感之间进行细粒度区分的必要性[22]、[23]。它们强调了区分难负样本对的重要性，其中来自不同情感类别的特征表示几乎相同但属于不同的类别。然而，有效处理这样的样本对仍然是一个开放的挑战，因为现有模型通常缺乏关注这些模糊样本的机制，这可能会直接降低情感识别系统的性能。

总之，尽管上述方法提高了整体的区分能力，但它们往往忽略了两个关键问题。首先，对比目标通常在没有明确考虑特定模态粒度的情况下应用，这可能会进一步加剧音频和视觉表示之间的不对齐。其次，现有方法通常统一处理所有负样本对，缺乏专门处理尽管属于不同情感类别但具有高表示相似性的难负样本的机制。因此，当前最先进的方法在同时解决粒度感知对齐和细粒度区分方面仍然有限。

为了克服上述限制，我们提出了一个统一的音视频情感识别框架，该框架同时解决了粒度感知对齐和细粒度区分问题。具体来说，我们首先引入了一种统一的粒度对比学习（UGCL）策略，以明确缓解音频和视觉表示之间的粒度不匹配问题。通过使用可训练的统一粒度令牌作为共享的表示基础，特定模态的特征被投影到一个粒度一致的空间中，从而促进了更可靠的跨模态对齐。此外，为了提高难负样本的区分能力，我们提出了一个类似的负样本区分（SND）模块。该模块包含一个辅助分类头，专门针对具有高表示相似性但情感标签不一致的难负样本，从而在传统对比目标之外实现了更强的类间分离。

本文的贡献总结如下：

•

引入了一种统一的粒度对比学习策略，以解决音频和视觉模态之间的粒度不匹配问题，实现更一致的跨模态对齐。

•

提出了一种类似的负样本区分模块，提高了模型区分难负样本的能力，从而提高了情感分类性能。

•

通过在广泛使用的数据集CREMA-D和IEMOCAP上进行的大量实验，证明了我们的方法优于现有的最先进方法。

方法概述

本节介绍了所提出的框架，如图1所示。该框架包括4个模块：特征提取、统一粒度对比学习、音视频特征融合和类似负样本区分。模型以成对的音频和视频数据（x_a, x_v）作为输入。在特征提取阶段，使用Wav2Vec2.0[24]提取音频特征，而视觉特征则通过视觉Transformer（ViT）[25]获得。这些特定模态的特征是