随着远程会议和数字媒体的快速发展,讲座视频(如学术讲座和会议演讲)已成为知识传播的核心载体之一(Hassani, Ershadi, Mohebi, 2022; Schroth, Cheung, Steinbach, Girod, 2011)。与文本或图像不同,讲座视频包含多模态信息,包括视觉场景、语音内容和幻灯片符号。它们包含了大量有价值的信息,如专家观点、前沿研究成果和技术创新动态。然而,尽管这些信息丰富且重要,但如何有效地将这些异构信号转换为结构化且可计算的知识单元仍然是信息提取领域最具挑战性的问题之一。
为了解决这一挑战,研究人员做出了许多尝试。早期的视频信息提取方法通常仅依赖于字幕文本或关键帧图像,忽略了不同模态之间的互补性。尽管后来引入了多模态融合策略,但大多数采用了“拼接对齐”的范式,这无法捕捉到跨模态的动态交互和深层语义协作。因此,提取结果往往碎片化且模糊,难以有效支持下游应用,包括知识图谱构建(Fan & Wang, 2022)、视频检索(Luo, Ma, Wang, Cao, & Lu, 2025)和视频推荐(Gao, 2024)。
近年来,多模态大型语言模型(MLLM)在图像分析和语音识别领域表现出色,为视频信息提取提供了新的研究方向。例如,Video-Llama(Zhang, Li, & Bing, 2023)通过对图像-文本和视频-文本数据的大规模联合训练,实现了视觉和音频模态的有效融合,并显著提高了模型的视频语义理解能力。Video-XL(Shu et al., 2025)进一步优化了视觉细节感知,在长视频理解任务中表现出色。然而,这些端到端模型仍然存在固有的局限性。与传统大型模型类似,它们的内部机制具有典型的黑盒特性,缺乏可解释性。因此,尽管这些模型在多模态理解方面表现优异,但在需要高精度结构化信息提取的任务中,其可靠性仍存在挑战。
讲座视频分析严重依赖于视觉文本(如幻灯片)和语音叙述之间的协同作用。然而,当前的端到端模型难以利用这种互补性。它们对全局特征的关注往往导致在视觉丰富的文本上表现不佳,而它们的“黑盒”特性阻碍了可解释性和错误诊断。为了克服这些限制,我们提出了一种协作多模型方法,将视频理解分解为原子子任务。我们使用多模态大型语言模型进行细粒度视觉解析,并使用自动语音识别(ASR)进行语音转录,明确构建不同的模态表示。然后使用大型语言模型的高级推理能力对这些异构信号进行深度对齐和融合。通过从隐式的端到端学习转向显式的协作推理机制,我们的方法实现了从讲座视频中高精度、可解释的结构化知识提取。本文的主要贡献如下:
(1) 我们提出了一种多模型协作视频信息提取方法。它利用多个预训练的MLLM将音频和视觉数据映射到统一的文本表示中。随后,通过精心设计的提示工程实现从讲座视频中提取高精度的结构化信息。
(2) 考虑到讲座视频中信息密度的不均匀分布,我们提出了一种关键帧提取算法,该方法结合了双阈值时间采样和语义过滤。这种方法能够准确识别并保留包含关键信息的帧,从而显著提高了提取的准确性和效率。
(3) 为了便于评估不同的提取算法,我们构建了一个专门的数据集,该数据集来自TED演讲视频,所有视频都手动标注了语义单元。我们将开放这个数据集以支持社区未来的研究。
本文的其余部分组织如下。第2节系统回顾了与本研究密切相关的视频理解领域的现有工作。第3节详细介绍了我们提出的多模态协作语音信息提取方法的核心设计和实现细节。第4节描述了数据集构建和实验设置,随后是对结果的全面分析。最后,第5节总结了本文并讨论了未来研究的方向。