基于多模态提示与掩码策略的视频对话系统优化研究

时间：2025年9月10日

来源：The Knee

编辑推荐：

这篇综述创新性地提出VPM框架（Video-Grounded Dialogue with Prompt-based tuning and Masking strategy），通过提示学习（prompt-based tuning）和指数掩码策略，解决视频对话（VGD）任务中训练成本高、视频理解不足和对话历史缺失三大挑战。作者首次在20%训练集上实现近全量精度，提出的切片视觉映射网络（slicing-based visual mapping）和跨模态注意力机制显著提升模型鲁棒性，在AVSD@DSTC7/8数据集上达到SOTA性能。

Highlight亮点

• 首个在低资源环境下解决视频对话（VGD）任务的研究

• 在交叉注意力机制每层嵌入可学习文本提示（learnable text prompts），使模型能根据上下文动态调整注意力

• 提出切片视觉映射网络（slicing-based visual mapping network），通过可学习视觉提示（visual prompts）与视频-音频切片特征序列化融合，增强对视频内容的理解

• 创新性指数掩码策略（exponentially masking strategy）逐步掩盖对话历史，提升跨模态理解与缺失容错能力

Method方法

如图2所示，我们通过三大技术重构基于T5的模型：

1.
可学习文本提示：在解码器每层交叉注意力模块添加动态提示令牌，通过逐层迭代融合丰富上下文信息
2.
切片视觉映射网络：将视频-音频特征切片后，为每批次生成等长可学习视觉提示作为Q，原始特征作为K/V输入交叉注意力，经自注意力层串联后保留原始特征完整性
3.
对话历史掩码：从第2轮训练开始，以指数增长比例随机掩盖历史对话，迫使模型减少对历史依赖

Dataset and evaluation metrics数据集与评估

实验采用AVSD@DSTC7/8数据集，训练集含7,659组对话（153,180 Q/A），验证集1,787组对话（35,740 Q/A）。评估指标包括BLEU₄、METEOR等，结果显示仅用20%训练数据即可达到竞争性指标，全量数据时在AVSD@DSTC7上超越所有SOTA。

Conclusion结论

我们首次将提示学习引入视频对话领域，通过三大创新——动态文本提示、切片视觉网络和指数掩码策略，显著降低训练成本并提升模型对多模态内容的理解能力。该框架为现实场景中对话历史缺失问题提供了鲁棒解决方案。