具有跨模态注意力机制和自适应门控功能的层次化 transformer 融合模型，用于音视频情绪识别

时间：2026年5月6日

来源：Neurocomputing

编辑推荐：

萨蒂什库马尔·莫尔蒂 | 元奎·文摘要多模态情感识别（MER）系统通常通过利用视觉、音频、文本和生理信号等模态之间的模态内和模态间关系，优于单模态方法。在这些模态中，音频和视觉线索是视频中两种主要的非接触式模态，通常提供相关的信息。然而，这种互补性并不总是有保证的；在许多

萨蒂什库马尔·莫尔蒂 | 元奎·文

摘要

多模态情感识别（MER）系统通常通过利用视觉、音频、文本和生理信号等模态之间的模态内和模态间关系，优于单模态方法。在这些模态中，音频和视觉线索是视频中两种主要的非接触式模态，通常提供相关的信息。然而，这种互补性并不总是有保证的；在许多现实世界场景中，模态之间的相关性可能较弱，甚至存在冲突，导致多模态表示效果下降。在本文中，我们提出了一种基于多阶段变压器特征融合和跨模态注意力（MSTFCMA）的视听情感识别框架，并结合了一种门控机制，该机制能够自适应地选择最相关的特征。这种机制使模型能够明确地处理模态之间的互补关系和冗余关系，特别是在模态互补性较弱或存在冲突的情况下。此外，该框架在统一的架构中整合了特定于模态的特征提取，以捕捉时空模式，同时保持跨模态的连贯性。提取的特定于模态的嵌入随后使用分层注意力机制进行融合，该机制能够捕捉模态内和模态间的动态。为了增强特征交互，我们计算了来自联合模态表示和单独模态表示之间的互相关性的多尺度注意力权重。然后，递归反馈策略在多次迭代中精细化融合的特征。进一步地，开发了一种门控机制，根据它们之间的互补程度调节原始输入表示和监督输出之间的信息交换。当存在强协同作用时，门控机制优先考虑监督（跨模态）特征；否则，它更倾向于单模态线索以防止干扰。实验结果表明，所提出的统一框架在具有挑战性的多模态条件下，比现有的最先进方法取得了稳健和一致的改进。

引言

人机交互（HCI）在各种现实世界应用中变得越来越重要，包括医疗保健、物联网（IoT）和自主系统。情感作为自发的、主要无意识的生理心理反应，受到许多因素的影响，如人格特质、认知状态和个人态度[1]、[2]、[3]、[4]、[5]。鉴于它们对人类决策和行为的深远影响，在智能系统的背景下理解和建模情感至关重要。情感计算的发展以及对情感适应技术的需求，使自动情感识别（AER）成为当前研究的中心话题。先前的研究表明，单模态情感识别往往不太理想[6]，而结合音频、视觉、文本和其他数据源的多模态方法则一致地获得了更好的性能[7]、[8]。其中，面部表情作为一个关键的非语言渠道，有效地传达了情感状态和人格特质，以及常常不可替代的信息。为了利用不同模态的优势，本研究应用了多模态情感识别技术，整合了多种输入，特别是语音线索和面部信号，从而提高了情感分类和决策的可靠性和准确性。

近年来，基于视频的情感识别系统中，多模态融合受到了广泛关注[9]。音频和视觉模态在视频序列中提供了补充和冗余数据。捕捉这些复杂的关系对于建模人类情感表达的复杂性至关重要。准确的情感识别不仅依赖于有效地建模每个模态内的时间依赖性，还依赖于它们之间的模态间关联[10]。为了解决这个问题，已经提出了各种方法，利用循环神经网络来建模单个模态内的时间动态[11]。新兴的基于注意力技术已被证明在识别与目标功能最相关的特征方面有效。特别是，跨注意力机制已被用于表征音频、视觉和补充模态之间的模态间依赖性[2]。该领域的开创性工作是ViLBERT[12]，它引入了用于联合多模态学习的共注意力机制。因此，已经开发了几种基于变压器的模型，通过跨注意力来增强多模态融合。MFGCN[13]引入了一个基于图的多模态融合框架，该框架联合建模了模态内关系和模态间依赖性。通过结合特定于模态的特征学习与多视角的跨模态融合，该模型有效地捕捉了模态间的互补情感信息。然而，这些方法通常难以全面捕捉模态内的时间模式。此外，尽管它们在跨模态学习互补特征方面表现出色，但通常缺乏明确建模对于稳健情感识别同样重要的冗余信息的能力。

跨注意力（CA）机制已被广泛用于建模音频和视觉模态之间的互补关系，应用于各种任务，如事件定位、动作识别和情感识别。几项 recent 的工作通过结合联合特征表示，改进了 CA 框架，允许同时建模模态内和模态间依赖性[14]。尽管这些方法有效，但大多数现有模型依赖于音频和视觉模态始终提供互补线索的假设，这限制了它们在现实世界条件下的稳健性。然而，这个假设并不总是成立，因为音频和视觉信息有时会冲突，可能会降低跨模态融合的有效性[15]。先前的研究表明，模态之间的较差互补性会降低跨注意力特征的质量，最终损害整体的音视频（AV）表示[16]。具体来说，MER-CAPF[17]引入了一个音频-文本多模态情感识别框架，该框架结合了深度可分离卷积网络和逐层冻结的 BERT 编码器。该模型采用了不对称的跨模态注意力机制和渐进式梯度调节策略，以实现稳定和稳健的多模态特征融合。

为了缓解这个问题，Praveen 等人[18] 提出了一种动态跨注意力方法，该方法可以根据需要方便地调节跨模态融合的程度，从而增强多模态整合的强度和一致性。在此基础上，我们提出了一个增强的递归联合跨注意力框架，该框架结合了迭代式的门控机制来控制原始特征和注意力特征之间的交互。这种改进通过保留多次细化步骤中最相关的信息，实现了更加灵活和有效的表示。与仅依赖于最终注意力特征的现有方法不同，我们的模型利用了所有迭代步骤的累积信息，从而在情感识别任务中取得了更好的性能。尽管如此，当前的基于变压器的跨注意力方法通常在有效建模单个模态内的时间动态方面面临挑战。此外，它们倾向于强调提取跨模态的互补信息，而忽视了可能对情感识别有价值的冗余信息，如图 1 所示。

受这些限制的启发，我们提出了一种统一的基于分层变压器的视听情感识别框架，该框架通过自适应和稳健的多模态融合明确解决了模态互补性不一致的问题。具体来说，我们引入了一种统一的联合表示学习机制，该机制与单模态分支一起工作，以在统一的框架内捕捉互补和冗余信息。该分支如图 2 所示，结合了递归跨模态融合机制，使用多尺度变压器捕捉模态内和模态间的协同关系，而不丢失上下文信息。受到其他领域递归注意力模型有效性的启发，我们采用了这种方法来进一步增强我们的系统。联合跨注意力框架递归地整合音频和视觉信号，在最终预测之前精细化特征，从而增强了模型表示复杂模态动态的能力。通过在整个迭代序列中明确控制这种信息交换，所提出的方法提高了模型在保留和强调最相关表示方面的灵活性和有效性。

尽管最近的基于变压器的多模态情感识别模型展示了有希望的性能，但大多数现有方法主要集中在通过跨模态注意力机制学习模态间的互补关系上。这些方法通常假设不同的模态始终提供互补信息。然而，在现实世界场景中，由于噪声、遮挡、说话者变化或环境干扰，音频和视觉信号可能表现出较弱的互补性，甚至存在冲突的情感线索。在这种条件下，传统的融合策略可能会降低多模态表示的质量，并降低识别性能。为了解决这一限制，我们提出了一种分层变压器融合框架，该框架结合了跨模态注意力和自适应门控（MSTFCMA），明确建模了模态之间的互补和冗余关系。所提出的框架引入了一个联合多模态表示分支，该分支捕获了集成的音视频特征以及单模态表示，使模型能够保留传统跨注意力模型经常忽略的有用冗余信息。此外，设计了一种递归跨模态注意力机制，通过多个阶段迭代地精细化多模态特征交互，改进了复杂情感线索的表示。为了在模态互补性较弱的情况下进一步增强稳健性，自适应门控机制根据它们的语义相关性动态调节跨注意力和单模态特征的贡献。另外，还结合了对比中心损失，以改善学习到的情感表示的类内紧凑性和类间可分性。通过这种统一设计，所提出的框架有效地解决了现有基于变压器的 MER 模型的关键限制，并在多个基准数据集上取得了改进的性能。总体而言，所提出的框架将所有组件整合到一个统一的架构中，旨在在不同模态可靠性条件下实现稳健的多模态融合。

本研究的主要贡献总结如下：

1. 统一的多模态融合框架：我们提出了一个基于分层变压器的多模态情感识别框架（MSTFCMA），该框架联合建模了模态内动态和模态间交互，同时明确解决了模态互补性不一致或较弱的问题。与假设互补性一致的传统方法不同，我们的框架旨在稳健地整合互补和冗余信息。

2. 带有分层变压器融合的联合表示学习：我们引入了一种多阶段变压器融合机制，该机制学习共享的音视频表示以及单模态特征，使模型能够捕捉互补和冗余的情感线索。这种设计在嘈杂或冲突的多模态条件下提高了表示的稳健性。

3. 用于渐进式细化的递归跨模态注意力：我们开发了一种递归跨模态注意力策略，通过多个阶段迭代地精细化多模态特征交互，使模型能够逐步增强跨模态依赖性并更有效地捕捉复杂的情感动态。

4. 用于稳健多模态整合的自适应门控：我们提出了一种自适应门控机制，根据它们的语义相关性动态调节单模态和跨注意力特征的贡献。这种机制使模型能够自适应地优先考虑可靠的模态并抑制噪声或冲突信号，从而在现实世界场景中提高性能。

5. 在基准数据集上的全面评估：我们在 IEMOCAP、MELD 和 AffWild2 数据集上进行了广泛的实验，证明所提出的统一框架始终优于最先进的方法，并在多样化的多模态设置中实现了稳健的性能。

本文的其余部分组织如下。第 2 节回顾了有关注意力驱动和基于变压器的情感识别方法的相关研究。第 3 节详细描述了所提出的方法。第 4 节介绍了在基准数据集上的实验评估，包括消融分析和所提出模型的可视化。最后，第 5 节总结了本文。

相关工作

多模态情感识别已成为情感计算中的一个重要研究领域，它利用文本、音频、视觉信号、EEG 和生理数据等不同模态来更好地捕捉复杂的人类情感状态。深度学习和大规模多模态数据集的最新进步推动了模型的发展，这些模型专注于有效的模态融合，以解决模态不对齐、类别不平衡和现实世界中有限的泛化等问题。

问题陈述

让我们用 \( N \) 表示从视频序列中均匀采样的非重叠、固定大小剪辑的总数。对于每个剪辑，我们提取相应的音频和视觉特征向量，分别表示为 \( \mathbf{a}_i \) 和 \( \mathbf{v}_i \)，其中 \( d_a \) 和 \( d_v \) 分别表示音频和视觉特征表示的维度。整个框架如图 2 所示，其中深度特征表示是从两种模态中独立提取的。具体来说，视觉特征向量表示为 \( \mathbf{v}_i \)。

数据集

IEMOCAP 是在南加州大学开发的一个多模态语料库，包括五对演员（男性-女性）之间的双向互动。每个 5-10 分钟的会话都是使用视频录制和运动捕捉系统捕获的。它包括对齐的音频记录、转录文本以及面部表情、头部手势和身体动作的详细注释。该数据集包含脚本化和即兴对话，代表了各种情感情境。

结论

本研究解决了音频和视觉模态之间非互补交互的挑战，这通常会阻碍传统跨注意力模型的有效性。为了克服这个问题，我们提出了一个稳健的框架，旨在保留互补特征的优势，同时减轻非互补关系的限制。该方法采用多阶段变压器架构处理音频和视觉流，实现了高效的情感表示。

CRediT 作者贡献声明

萨蒂什库马尔·莫尔蒂：撰写——原始草案、可视化、方法论、形式分析、概念化。Yeon-kug Moon 的职责包括：撰写论文（包括审稿和编辑工作）、项目监督、资源管理、项目执行以及资金筹措。

**利益冲突声明**
作者声明，他们没有已知的财务利益冲突或可能影响本文研究结果的个人关系。

**致谢**
本研究得到了韩国贸易、工业及能源部（MOTIE）资助的“技术创新项目”（项目编号：RS-2024-00487049，主题为“开发用于汽车驾驶员情绪服务的复杂情感识别人工智能技术”）的支持。同时，该研究也得到了信息与通信技术规划与评估研究所（IITP）在“元宇宙支持计划”下的资助（项目编号：IITP-2025-RS-2023-00254529）的支持。

**关于作者的背景信息**
Sathishkumar Moorthy 出生于1990年，印度泰米尔纳德邦埃罗德的Gobichettipalayam。他于2011年在印度金奈的Anna University获得计算机科学与工程学士学位，2013年在印度科伊姆巴托尔的Karpagam高等教育学院获得计算机科学与工程硕士学位。2024年，他在韩国群山的Kunsan国立大学电子与信息工程系取得博士学位。2013年至2016年期间，他在...（此处原文内容缺失）。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部