编辑推荐:
这篇综述创新性地提出VPM框架(Video-Grounded Dialogue with Prompt-based tuning and Masking strategy),通过提示学习(prompt-based tuning)和指数掩码策略,解决视频对话(VGD)任务中训练成本高、视频理解不足和对话历史缺失三大挑战。作者首次在20%训练集上实现近全量精度,提出的切片视觉映射网络(slicing-based visual mapping)和跨模态注意力机制显著提升模型鲁棒性,在AVSD@DSTC7/8数据集上达到SOTA性能。
Highlight亮点
• 首个在低资源环境下解决视频对话(VGD)任务的研究
• 在交叉注意力机制每层嵌入可学习文本提示(learnable text prompts),使模型能根据上下文动态调整注意力
• 提出切片视觉映射网络(slicing-based visual mapping network),通过可学习视觉提示(visual prompts)与视频-音频切片特征序列化融合,增强对视频内容的理解
• 创新性指数掩码策略(exponentially masking strategy)逐步掩盖对话历史,提升跨模态理解与缺失容错能力
Method方法
如图2所示,我们通过三大技术重构基于T5的模型:
可学习文本提示:在解码器每层交叉注意力模块添加动态提示令牌,通过逐层迭代融合丰富上下文信息
切片视觉映射网络:将视频-音频特征切片后,为每批次生成等长可学习视觉提示作为Q,原始特征作为K/V输入交叉注意力,经自注意力层串联后保留原始特征完整性
对话历史掩码:从第2轮训练开始,以指数增长比例随机掩盖历史对话,迫使模型减少对历史依赖
Dataset and evaluation metrics数据集与评估
实验采用AVSD@DSTC7/8数据集,训练集含7,659组对话(153,180 Q/A),验证集1,787组对话(35,740 Q/A)。评估指标包括BLEU4、METEOR等,结果显示仅用20%训练数据即可达到竞争性指标,全量数据时在AVSD@DSTC7上超越所有SOTA。
Conclusion结论
我们首次将提示学习引入视频对话领域,通过三大创新——动态文本提示、切片视觉网络和指数掩码策略,显著降低训练成本并提升模型对多模态内容的理解能力。该框架为现实场景中对话历史缺失问题提供了鲁棒解决方案。
生物通 版权所有