章节片段
视觉-语言模型
视觉-语言模型(VLMs)[4]、[17]、[18]因其出色的跨模态推理能力、可解释性和泛化能力而受到广泛关注。这些优势促使研究人员将VLMs作为自动驾驶VQA的基础模型,以应对各种复杂的驾驶环境[19]、[20]。例如,SimpleLLM4AD[21]作为一个端到端的视觉-语言模型,能够解释和推理来自视觉和文本的信息
方法
PeLiC-VLM是一种性能优越且轻量级的共存视觉-语言模型,专为自动驾驶中的视觉问答(VQA)而设计。它通过接收多视图图像和用户指令文本作为输入来生成文本响应。在本节中,我们首先详细介绍了PeLiC-VLM的总体架构,然后具体解释了每个创新模块的技术细节和原理,包括多视图图像表示
数据集
我们使用DriveLM-NuScenes数据集(源自NuScenes)[46]来评估PeLiC-VLM,该数据集是由多个全球城市的自动驾驶车辆收集的大规模真实世界数据集,包括波士顿和新加坡。该数据集包含656个真实世界场景、4072个多视图帧和377,983个问答对。DriveLM-NuScenes涵盖了自动驾驶系统的感知、预测和规划模块,提供了全面的语言注释数据。
与SOTA方法在完整测试集上的比较
如表1所示,我们将PeLiC-VLM与之前在DriveLM-NuScenes数据集上报告的评估结果进行了比较,包括四个重型模型(RoboTron-Drive[6]、LLaMA-Adapter[7]、InternVL-2[8]和DriveLM-Agent [46])和三个轻型模型(EM-VLM4AD[27]、MiniDrive[31]和LaVida Drive[51])。在性能指标方面,PeLiC-VLM表现出色。具体来说,在BLEU-4指标上,PeLiC-VLMBase(52.51)仅次于
优势
本研究提出了PeLiC-VLM,这是一种专为自动驾驶中的视觉问答而设计的性能优越且轻量级的共存视觉-语言模型。其主要优势包括:
(1) 高性能和轻量级设计。
与传统仅关注性能或轻量级的VLM不同,我们的方法强调高效的视觉特征提取和表示,同时满足轻量级部署的要求。这解决了复杂驾驶环境中的挑战
结论
然而,现有的视觉-语言模型(VLM)在自动驾驶领域面临双重挑战:它们必须满足对精确场景理解的高要求,同时还需要实现轻量级部署。为了解决这个问题,本文提出了一种性能优越且轻量级的共存视觉-语言模型(PeLiC-VLM),旨在应对车辆嵌入式系统中计算资源有限和复杂驾驶场景带来的挑战
CRediT作者贡献声明
卢刚:撰写 – 审稿与编辑,撰写 – 原稿,可视化,概念化。陈志贵:撰写 – 审稿与编辑,监督,概念化。胡倩:监督,概念化。唐晓琳:监督,概念化。罗晓:监督,概念化。储文波:监督,概念化。李国发:撰写 – 审稿与编辑,监督,概念化。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。
致谢
本研究得到了国家自然科学基金(资助编号:52272421, 52372377)、新重庆青年创新人才项目(CSTB2024NSCQ-QCXMX0100)和青年北京学者计划(2024-069)的支持。