近几十年来,计算能力的增长以及生成内容的迅速增加使得手动数据分析变得越来越低效。为了从这些海量数据中提取有价值的信息,人们提出了多种方法。同时,数据类型也发生了变化,包括文本、图像、视频和音频等。这种多样化为从多个角度进行分析提供了可能,例如情感检测或文档关键内容的摘要生成。在现有的技术中,情感分析和摘要生成是两种常用的方法。
情感分析(也称为观点挖掘)用于分析人们对各种实体(如产品、服务、组织、个人、问题、事件、主题及其属性)的看法、情感和态度。其应用范围涵盖市场营销、医疗保健、电子商务、教育和金融等多个领域。鉴于其重要性,情感分析在各个领域都得到了广泛的研究和应用。
另一种方法是摘要生成,它旨在在不丢失关键信息的情况下对文本、音频、图像或多模态内容进行压缩。这项技术应用于医疗保健、法律、教育和在线内容等领域。随着技术的进步,摘要方法的准确性不断提高。最初最简单的方法是提取式摘要,仅选择最重要的句子;随后研究者转向了抽象式摘要,生成新的句子来捕捉主要概念;进而发展出了结合这两种方法的混合式摘要。
近年来,人们对多模态内容的兴趣显著增加。多模态方法的核心特点是结合了视觉和/或听觉信息与传统的基于文本的分析方法。这种整合使得分析更加全面,从而提高了准确性。例如,在情感分析中,仅依靠文本可能难以识别讽刺和反讽,导致误解;而通过整合其他模态信息可以提升准确性。
尽管多模态研究取得了快速进展,现有文献仍倾向于将多模态情感分析(MSA)和多模态摘要生成(MS)视为独立的领域。实际上,许多综述文章分别对这些领域进行了全面介绍。例如,[3]、[4]、[5]、[6] 的研究提供了多模态情感分析的综述,而 [7]、[8] 的研究则专注于多模态摘要生成。
我们的研究也证实了这一点:目前尚未有同时涵盖这两个主题的综述文章。这表明这些任务在很大程度上尚未被系统性地探索过。然而,需要指出的是,非英文文献和灰色文献可能未被充分纳入研究范围,这暴露了理解多模态摘要生成与情感分析交叉领域的一个关键空白。因此,亟需开展综合性的研究以获得更深入的见解和分析。
本文旨在对多模态情感分析和多模态摘要生成进行系统性的综述,提出一种分类方法来整理相关论文。研究采用基于系统综述指南的严谨方法论,并对多模态情感分析和过去一年的多模态摘要生成进行了全面分析,包括相关数据集的梳理以及对这两种技术的深入探讨。
本文结构如下:第2节提供了关于多模态情感分析和摘要生成的背景知识;第3节阐述了综述方法;第4节讨论了相关研究;第5节分析了各种方法的优势和局限性;第6节探讨了公平性、可解释性、面临的挑战及未来发展方向;第7节对全文进行了总结。