基于多模态提示与掩码策略的视频对话系统优化研究

时间:2025年9月10日
来源:The Knee

编辑推荐:

这篇综述创新性地提出VPM框架(Video-Grounded Dialogue with Prompt-based tuning and Masking strategy),通过提示学习(prompt-based tuning)和指数掩码策略,解决视频对话(VGD)任务中训练成本高、视频理解不足和对话历史缺失三大挑战。作者首次在20%训练集上实现近全量精度,提出的切片视觉映射网络(slicing-based visual mapping)和跨模态注意力机制显著提升模型鲁棒性,在AVSD@DSTC7/8数据集上达到SOTA性能。

广告
   X   

Highlight亮点

• 首个在低资源环境下解决视频对话(VGD)任务的研究

• 在交叉注意力机制每层嵌入可学习文本提示(learnable text prompts),使模型能根据上下文动态调整注意力

• 提出切片视觉映射网络(slicing-based visual mapping network),通过可学习视觉提示(visual prompts)与视频-音频切片特征序列化融合,增强对视频内容的理解

• 创新性指数掩码策略(exponentially masking strategy)逐步掩盖对话历史,提升跨模态理解与缺失容错能力

Method方法

如图2所示,我们通过三大技术重构基于T5的模型:

  1. 1.

    可学习文本提示:在解码器每层交叉注意力模块添加动态提示令牌,通过逐层迭代融合丰富上下文信息

  2. 2.

    切片视觉映射网络:将视频-音频特征切片后,为每批次生成等长可学习视觉提示作为Q,原始特征作为K/V输入交叉注意力,经自注意力层串联后保留原始特征完整性

  3. 3.

    对话历史掩码:从第2轮训练开始,以指数增长比例随机掩盖历史对话,迫使模型减少对历史依赖

Dataset and evaluation metrics数据集与评估

实验采用AVSD@DSTC7/8数据集,训练集含7,659组对话(153,180 Q/A),验证集1,787组对话(35,740 Q/A)。评估指标包括BLEU4、METEOR等,结果显示仅用20%训练数据即可达到竞争性指标,全量数据时在AVSD@DSTC7上超越所有SOTA。

Conclusion结论

我们首次将提示学习引入视频对话领域,通过三大创新——动态文本提示、切片视觉网络和指数掩码策略,显著降低训练成本并提升模型对多模态内容的理解能力。该框架为现实场景中对话历史缺失问题提供了鲁棒解决方案。

生物通微信公众号
微信
新浪微博


生物通 版权所有