性能与轻量级的共存：用于自动驾驶中视觉场景问答的视觉语言模型

时间：2026年2月12日

来源：ADVANCED ENGINEERING INFORMATICS

编辑推荐：

自动驾驶场景下视觉问答的高精度轻量化模型设计。提出PeLiC-VLM，通过多视角图像聚合网络（MIRA-Net）、视觉优化模块（VRM）和量化图像-文本适配器（IT-Adapter）实现高效特征提取与模态对齐，在BLEU-4、METEOR等指标上超越基线模型，参数量仅268M，推理时间56/43ms满足实时需求。

卢刚|陈志贵|胡倩|唐晓琳|罗晓|储文波|李国发

重庆大学机械与车辆工程学院，中国重庆400044

摘要

在复杂的驾驶场景中，基于视觉-语言模型实现精确且实时的视觉问答（VQA）是自动驾驶领域的一项具有挑战性的任务。为了解决这个问题，本文提出了一种性能优越且轻量级的共存视觉-语言模型（PeLiC-VLM），该模型专为自动驾驶场景中的VQA而设计。通过集成多视图图像表示聚合网络、视觉细化模块和高效的量化图像-文本适配器（IT-Adapter），该模型能够在复杂的驾驶环境中实现精确的语义解析和实时交互式问答。实验结果表明，PeLiC-VLM在多个评估指标（包括BLEU-4、METEOR、ROUGE-L和CIDEr）上均表现出色，同时保持了极轻量的结构：仅具有268兆参数、4.7 GFLOPs的计算成本和0.49 GB的内存占用。此外，在NVIDIA AGX Orin边缘计算平台上进行的推理测试显示，PeLiC-VLM的两个版本分别实现了56毫秒和43毫秒的推理时间，完全满足了车内应用的实时要求。通过结合高性能和低计算复杂性，PeLiC-VLM为自动驾驶系统中的实时视觉理解和交互任务提供了高效且实用的解决方案。

引言

迄今为止，自动驾驶技术取得了显著进展，迫切需要能够进行复杂视觉场景理解和无缝交互的先进系统[1]。在自动驾驶应用中，视觉问答（VQA）技术起着关键作用[2]，它使车辆不仅能够准确解释动态环境，还能够进行高效的用户交互。然而，现有的视觉-语言模型（VLM）在自动驾驶领域面临双重挑战：它们必须满足对精确场景理解的高要求，同时还需要实现轻量级部署。为了在这一领域实现稳健和高效的性能，研究工作必须集中解决三个基本问题。

(1)

视觉特征的有效提取和表示。当前基于视觉Transformer（ViT）[3]的方法采用自注意力机制将图像分割成固定大小的块，并将其转换为序列输入以捕获全局上下文特征。然而，这种方法产生的图像表示包含大量冗余信息，如相似的块和背景元素。当这些表示直接输入到后续组件时，会带来较大的计算开销并引入噪声。此外，自动驾驶场景通常需要多视图图像输入，而现有的视觉编码器主要是在单张图像上训练的。这一限制限制了它们有效处理多视图图像的能力，从而阻碍了对驾驶环境的全面理解。

(2)

图像和文本模态的有效对齐。现有方法通常使用线性投影或MLP将视觉特征映射到文本嵌入空间[4]。虽然计算效率高，但这些方法的表现力有限，难以捕捉复杂的跨模态交互，并且在处理高维数据时可能导致信息丢失。Q-Former[5]通过自注意力机制实现了更有效的模态对齐，但其参数调整和优化复杂，导致较大的计算开销。此外，它依赖于高质量的视觉表示才能达到最佳性能。

(3)

轻量级模型设计。当前的工作（例如RoboTron-Drive[6]、LLaMA-Adapter[7]和InternVL-2[8]）主要关注性能提升，使用大规模参数模型（例如BLIP-2[9]、SigLIP[10]和CLIP[11]中的ViT模型，以及Intern ViT-6B[12]作为视觉编码器，LLaMA-7B[13]、LLaMA-3.1-8B[14]、GPT-3.5[15]和GPT-4[16]作为语言模型），往往忽视了轻量级设计。这些大型模型消耗大量计算资源，增加硬件成本，并延长响应时间，使其不适用于车辆部署。因此，在保持高性能的同时实现模型轻量化是推进自动驾驶领域VLM应用的关键挑战。

为了解决这些挑战，我们提出了一种新型的性能优越且轻量级的共存视觉-语言模型（PeLiC-VLM），专为自动驾驶中的视觉场景问答而设计。我们的模型引入了多视图图像表示聚合网络、视觉细化模块和高效的量化图像-文本适配器（IT-Adapter），在保持低计算开销的同时实现了强大的性能，以满足车内嵌入式设备的实际部署要求。这项工作为自动驾驶系统中的实时、高精度视觉理解和交互铺平了道路。

本文的主要贡献总结如下：

•

我们开发了PeLiC-VLM，专为自动驾驶场景中的视觉问答而设计。该模型通过消融研究和与RoboTron-Drive、LLaMA-Adapter、InternVL-2、DriveLM-Agent、EM-VLM4AD、MiniDrive和LaVida Drive等最先进模型的广泛比较分析进行了严格验证。PeLiC-VLM的两个变体在多个指标上表现出色，同时保持了轻量级架构：仅具有268兆参数、8.3GFLOPs/4.7GFLOPs的计算成本和1.07 GB/0.49 GB的内存占用。这使得PeLiC-VLM非常适合需要高性能和低计算复杂性的实际应用。

•

我们设计了一种多视图图像表示聚合网络（MIRA-Net），它通过排列不变聚合机制和动态权重分配整合了多视图特征，有效克服了单视图环境理解的局限性。还引入了视觉细化模块（VRM），利用可学习的查询引导、注意力过滤和序列压缩来增强语义层次结构并减少计算开销，从而有效过滤冗余的视觉信息。

•

我们设计了一种高效的量化操作技术（AQuant），通过均匀最小最大量化（Uniform Min-Max）、通道因子量化（CFQ）和对数指数变换量化（LETQ）对图像-文本适配器（IT-Adapter）中计算密集的注意力机制进行量化，显著降低了计算开销，同时保持了模型性能。

•

该模型在不同任务的专门场景中表现出卓越的鲁棒性。此外，在NVIDIA Jetson AGX Orin边缘平台上，其推理延迟仅为56毫秒/43毫秒，完全满足了车内嵌入式系统的实时部署要求。

本文的其余部分结构如下：第2节提供了相关工作的文献综述。第3节概述了提出的框架及其关键创新组件。第4节详细介绍了实验设置和程序。第5节展示了实验结果和模型性能评估。第6节讨论了研究的优势、见解和局限性。最后，第7节总结了本文并提出了未来研究的潜在方向。

章节片段

视觉-语言模型

视觉-语言模型（VLMs）[4]、[17]、[18]因其出色的跨模态推理能力、可解释性和泛化能力而受到广泛关注。这些优势促使研究人员将VLMs作为自动驾驶VQA的基础模型，以应对各种复杂的驾驶环境[19]、[20]。例如，SimpleLLM4AD[21]作为一个端到端的视觉-语言模型，能够解释和推理来自视觉和文本的信息

方法

PeLiC-VLM是一种性能优越且轻量级的共存视觉-语言模型，专为自动驾驶中的视觉问答（VQA）而设计。它通过接收多视图图像和用户指令文本作为输入来生成文本响应。在本节中，我们首先详细介绍了PeLiC-VLM的总体架构，然后具体解释了每个创新模块的技术细节和原理，包括多视图图像表示

数据集

我们使用DriveLM-NuScenes数据集（源自NuScenes）[46]来评估PeLiC-VLM，该数据集是由多个全球城市的自动驾驶车辆收集的大规模真实世界数据集，包括波士顿和新加坡。该数据集包含656个真实世界场景、4072个多视图帧和377,983个问答对。DriveLM-NuScenes涵盖了自动驾驶系统的感知、预测和规划模块，提供了全面的语言注释数据。

与SOTA方法在完整测试集上的比较

如表1所示，我们将PeLiC-VLM与之前在DriveLM-NuScenes数据集上报告的评估结果进行了比较，包括四个重型模型（RoboTron-Drive[6]、LLaMA-Adapter[7]、InternVL-2[8]和DriveLM-Agent [46]）和三个轻型模型（EM-VLM4AD[27]、MiniDrive[31]和LaVida Drive[51]）。在性能指标方面，PeLiC-VLM表现出色。具体来说，在BLEU-4指标上，PeLiC-VLM_Base（52.51）仅次于