在自然语言处理领域,情感识别对话(ERC)任务正朝着多模态融合和认知解释的方向发展。传统方法存在三大瓶颈:首先,过度依赖专用声学或视觉编码器,导致系统难以迁移部署;其次,缺乏对个体稳定特征的建模,同一语句在不同说话者中可能引发不同情感解读;第三,因果关系建模薄弱,难以解释突变的情感转换。针对这些挑战,研究者提出TEMPO-LLM框架,通过整合人格特征、多模态提示和因果推理模块,在保持语言模型通用性的同时提升情感识别的准确性和可解释性。
核心创新体现在三个维度。在跨模态融合方面,该框架创造性地将声学特征和视觉行为转化为文本化提示(ACP和BCP)。例如,通过统计语音信号的强度、音调变化和语速特征,构建与对话文本语义对齐的声学提示词;再如,将面部表情、肢体动作等视觉信息提炼为行为提示词。这种设计突破传统多模态架构的局限,使得语言模型无需修改底层结构即可处理多模态输入,显著降低计算成本。
人格建模机制引入了心理学理论支撑。基于大五人格模型(OCEAN),为每个对话参与者建立稳定的特征向量。当系统检测到情感表达存在跨个体差异时,自动激活人格特征权重调整模块。这种机制不仅提升对少数情感类别(如矛盾情感)的识别准确率,还能有效消除同一语句因说话者风格差异导致的误判。
因果推理模块的创新在于动态证据检索机制。当对话中存在模糊情感转换或跨句子推理需求时,系统会触发基于ATOMIC知识库的检索增强生成(RAG)。该过程通过三阶段验证:首先检测当前上下文中的触发词强度,其次计算内部上下文关联度,最后当综合评分超过阈值时,调用外部常识知识进行补充。这种设计既避免了过度依赖外部数据,又通过可调节的阈值控制增强了推理的稳定性。
实验验证部分展示了该框架的显著优势。在MELD和IEMOCAP数据集上,加权F1值分别达到70.10%和71.76%,超过所有基于专用多模态架构的基准模型。特别是在处理长对话中的情感累积效应时,TEMPO-LLM展现出更强的跨句子推理能力。消融实验表明,人格特征模块贡献约15%的性能提升,而因果推理模块在突发情感变化场景下可将误判率降低23.6%。
该研究在方法论层面提出了三重创新:1)建立可解释的情感推理链条,每个预测结果附带三重证据链(人格特征、声学行为、因果推导);2)开发动态权重分配机制,根据对话阶段自适应调整各提示词的注意力权重;3)设计轻量化多模态接口,通过语义对齐技术实现跨模态信息的有效整合。这些技术突破为情感计算研究提供了新的范式参考。
未来研究方向建议在动态人格建模和跨文化情感识别方面深化探索。当前的人格特征库主要基于西方心理学理论,需要扩展至跨文化语境下的本土化人格模型。此外,针对实时对话场景的推理效率优化仍有提升空间,特别是多模态提示词的压缩与加速检索技术。在医疗、教育等应用场景中,如何构建更细粒度的情感反馈机制也是值得研究的问题。该框架的成功验证了语言模型在情感计算领域的潜力,为后续研究提供了重要的技术路径参考。