通过多模型协作从讲座视频中提取结构化知识

时间:2026年1月30日
来源:Expert Systems with Applications

编辑推荐:

跨模态信息协同抽取方法通过Whisper语音识别、双阈值关键帧提取、多模态大模型语义描述和LLM结构化解析,在11.6小时58个TED演讲视频数据集上实现74%实体抽取F1(较VideoLLaMA3提升36%)和76%关系抽取F1(较31%显著提升),提出模块化协作框架突破现有端到端模型的可解释性局限。

广告
   X   

Mingqi Zheng|Xiaohui Chen|Bing Liu|Yiwen Ye|Sinian Lin
机构:信息工程大学 地址:中原区,郑州市,邮编450000,河南省,中国

摘要

大多数现有的视频信息提取方法仅使用单模态数据,这导致无法充分利用视频中的视觉和音频信息来进行精确的信息提取。为了解决多模态信息利用不足的问题,提出了一种多模型协作视频信息提取方法,以全面利用视觉和音频信息进行精确的信息提取。首先,使用Whisper模型识别语音视频中的音频以获取语音内容。接下来,设计了一种双阈值时间采样算法来提取关键帧。然后利用多模态大模型的强大图像理解能力将这些关键帧以文本形式描述出来。最后,结合提示工程,使用大型语言模型精确提取实体及其关系。为了验证所提出方法的有效性,我们构建了一个包含58个TED演讲视频(总计11.6小时)的数据集,数据集大小为2.11G。在该数据集上进行了广泛的实验,结果表明所提出的方法比现有方法具有更高的准确性。我们的方法在实体提取方面的F1分数达到了74%(相比之下,VideoLLaMA3为38%),而在关系提取方面的F1分数达到了76%(相比之下为31%)。

引言

随着远程会议和数字媒体的快速发展,讲座视频(如学术讲座和会议演讲)已成为知识传播的核心载体之一(Hassani, Ershadi, Mohebi, 2022; Schroth, Cheung, Steinbach, Girod, 2011)。与文本或图像不同,讲座视频包含多模态信息,包括视觉场景、语音内容和幻灯片符号。它们包含了大量有价值的信息,如专家观点、前沿研究成果和技术创新动态。然而,尽管这些信息丰富且重要,但如何有效地将这些异构信号转换为结构化且可计算的知识单元仍然是信息提取领域最具挑战性的问题之一。
为了解决这一挑战,研究人员做出了许多尝试。早期的视频信息提取方法通常仅依赖于字幕文本或关键帧图像,忽略了不同模态之间的互补性。尽管后来引入了多模态融合策略,但大多数采用了“拼接对齐”的范式,这无法捕捉到跨模态的动态交互和深层语义协作。因此,提取结果往往碎片化且模糊,难以有效支持下游应用,包括知识图谱构建(Fan & Wang, 2022)、视频检索(Luo, Ma, Wang, Cao, & Lu, 2025)和视频推荐(Gao, 2024)。
近年来,多模态大型语言模型(MLLM)在图像分析和语音识别领域表现出色,为视频信息提取提供了新的研究方向。例如,Video-Llama(Zhang, Li, & Bing, 2023)通过对图像-文本和视频-文本数据的大规模联合训练,实现了视觉和音频模态的有效融合,并显著提高了模型的视频语义理解能力。Video-XL(Shu et al., 2025)进一步优化了视觉细节感知,在长视频理解任务中表现出色。然而,这些端到端模型仍然存在固有的局限性。与传统大型模型类似,它们的内部机制具有典型的黑盒特性,缺乏可解释性。因此,尽管这些模型在多模态理解方面表现优异,但在需要高精度结构化信息提取的任务中,其可靠性仍存在挑战。
讲座视频分析严重依赖于视觉文本(如幻灯片)和语音叙述之间的协同作用。然而,当前的端到端模型难以利用这种互补性。它们对全局特征的关注往往导致在视觉丰富的文本上表现不佳,而它们的“黑盒”特性阻碍了可解释性和错误诊断。为了克服这些限制,我们提出了一种协作多模型方法,将视频理解分解为原子子任务。我们使用多模态大型语言模型进行细粒度视觉解析,并使用自动语音识别(ASR)进行语音转录,明确构建不同的模态表示。然后使用大型语言模型的高级推理能力对这些异构信号进行深度对齐和融合。通过从隐式的端到端学习转向显式的协作推理机制,我们的方法实现了从讲座视频中高精度、可解释的结构化知识提取。本文的主要贡献如下:
(1) 我们提出了一种多模型协作视频信息提取方法。它利用多个预训练的MLLM将音频和视觉数据映射到统一的文本表示中。随后,通过精心设计的提示工程实现从讲座视频中提取高精度的结构化信息。
(2) 考虑到讲座视频中信息密度的不均匀分布,我们提出了一种关键帧提取算法,该方法结合了双阈值时间采样和语义过滤。这种方法能够准确识别并保留包含关键信息的帧,从而显著提高了提取的准确性和效率。
(3) 为了便于评估不同的提取算法,我们构建了一个专门的数据集,该数据集来自TED演讲视频,所有视频都手动标注了语义单元。我们将开放这个数据集以支持社区未来的研究。
本文的其余部分组织如下。第2节系统回顾了与本研究密切相关的视频理解领域的现有工作。第3节详细介绍了我们提出的多模态协作语音信息提取方法的核心设计和实现细节。第4节描述了数据集构建和实验设置,随后是对结果的全面分析。最后,第5节总结了本文并讨论了未来研究的方向。

相关工作

相关工作

为了全面了解视频理解领域的当前研究现状,我们对2019年以来发表的相关文献进行了广泛调查。我们通过在多个数据库(包括Web of Science、IEEE Xplore、ACM DL和arXiv)中搜索“视频摘要”、“视频字幕”、“视频检索”和“信息提取”等关键词,构建了初始的文献语料库。首先根据标题和摘要进行了初步筛选,然后...

提出的方法

受到视觉语言大型模型和大型语言模型在多领域任务中出色表现的启发,我们提出了一种基于多模型协作的讲座视频信息提取方法。开源的大型语言模型用于通过融合语音、视觉和文本的多种模态特征来实现视频的结构化处理,无需额外训练。如图1所示,系统架构包括四个核心组件:语音识别、关键...

实验结果与分析

为了验证所提出方法的有效性和优越性,我们在自己构建的数据集上进行了广泛的消融研究和比较研究。所有实验都在相同的配置下进行:一个NVIDIA Quadro RTX 8000 GPU、Ubuntu 24.02操作系统和PyTorch深度学习框架。

结论

为了充分利用视频中包含的丰富信息,我们提出了一种多模型协作视频信息提取方法。首先,使用Whisper模型和Qwen2.5-VL将语音特征和视觉特征映射到文本表示中,利用多模态信息的互补性来提高结果的准确性。随后,通过利用强大的文本理解能力进行实体识别和关系提取...

CRediT作者贡献声明

Mingqi Zheng: 数据整理、撰写——原始草稿。Xiaohui Chen: 撰写——审阅与编辑、监督。Bing Liu: 概念化、方法论。Yiwen Ye: 验证。Sinian Lin: 验证。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

生物通微信公众号
微信
新浪微博


生物通 版权所有