PromptGuard：通过对抗性提示调优来保护大型视觉语言模型

生物通首页 > 今日动态 > 正文

PromptGuard：通过对抗性提示调优来保护大型视觉语言模型

时间：2026年2月11日

来源：Knowledge-Based Systems

编辑推荐：

PromptGuard通过对抗性提示调优提升大视语言模型对抗鲁棒性，利用跨模态组件（如Q-former）对齐清洁与对抗样本特征，在降低额外推理成本（7.9%）的同时提升攻击下准确率最多32.8%。

周长宝|岳恒山|严明|魏晓辉

吉林大学计算机科学与技术学院，长春，130012，吉林，中国

摘要

大型视觉语言模型（LVLMs）在各种下游任务中取得了显著的成功，但越来越容易受到视觉对抗性攻击的影响。现有的防御措施，如基于去噪或基于训练的方法，由于大规模模型和数据集的高推理成本或不可承受的训练要求，不适合用于保护LVLMs。为了解决这些挑战，我们提出了PromptGuard，这是一种新的防御机制，它利用对抗性提示调整来增强LVLMs的鲁棒性，而无需进行大量的模型训练或额外的推理开销。通过利用嵌入在LVLMs中的跨模态组件（例如Q-former），我们使用一个设计良好的损失函数来调整可学习的提示，以对齐来自干净和对抗性输入的图像特征。这种方法减轻了输入上的对抗性特征，同时最小化了调整后的提示的副作用。我们在几个经典任务上验证了PromptGuard对抗最先进的对抗性攻击的有效性。实验结果表明，PromptGuard以一种成本效益高的方式有效防御了LVLMs，在受到攻击时准确率提高了高达32.8%，而推理成本仅增加了7.9%。这项工作为LVLMs的对抗性鲁棒性增强提供了一个新的视角，展示了提示调整作为一种轻量级和可扩展的防御机制的潜力。

引言

最近，大型视觉语言模型（LVLMs）[1]、[2]、[3]、[4]、[5]、[6]在包括图像分类、图像描述和视觉问答（VQA）[7]在内的各种任务中展示了出色的能力。然而，它们对抗对抗性攻击的鲁棒性仍然是一个关键问题。最近的研究[8]、[9]、[10]、[11]、[12]、[13]强调了LVLMs对其输入数据的微妙扰动的脆弱性，特别是在涉及多模态交互的情景中。攻击者可以通过对输入图像进行难以察觉的修改来利用这些弱点，导致LVLMs生成错误的输出。LVLMs的交互性质，特别是在VQA等任务中，进一步放大了它们对抗性操纵的易感性，这引发了关于它们在安全关键应用中部署的严重担忧[14]、[15]、[16]、[17]。因此，开发有效的防御机制来保护LVLMs免受此类攻击至关重要。

为了对抗深度神经网络中的对抗性威胁，已经研究了几种防御策略[18]、[19]、[20]、[21]、[22]、[23]，每种策略都有其独特的特点：(i) 输入去噪 [18]、[19]、[20]、[24]试图使用基于扩散的净化或预处理方法从输入样本中去除对抗性扰动。(ii) 对抗性训练 [21]、[22]、[23]通常被构建为一个最小-最大优化问题，在每次训练迭代时生成对抗性示例以更新模型。尽管这些方法有效，但基于去噪的方法也可能改变合法输入，从而可能降低模型的整体性能。对抗性训练计算成本高昂，对于通常由数十甚至数百亿个参数组成的大规模LVLMs来说不切实际。此外，这些成熟的防御策略主要是为传统视觉任务量身定制的，因此在专门为LVLMs设计的鲁棒防御方面存在空白。

为了填补这一空白，出现了一项新的研究方向[25]、[26]，专注于通过对抗性提示调整（APT）[27]、[28]、[29]、[30]来增强预训练的视觉语言模型的对抗性鲁棒性。通过将一些调整后的提示插入原始提示中，像CLIP [31]这样的模型将在分类任务中对视觉对抗性攻击更加鲁棒。然而，由于LVLMs和预训练的视觉语言模型之间的差距，在将对抗性提示调整范式转移到LVLMs时出现了几个挑战，尤其是在像视觉问答（VQA）这样更复杂的任务中：(i) 如何对齐对抗性和干净样本之间的特征？与分类任务中的对抗性训练或提示调整不同，VQA任务没有输入样本的固定答案。这使得在对抗性和干净样本之间对齐特征时考虑所有可能的问题和答案变得不切实际。(ii) 如何减少可学习提示对干净输入数据的副作用？当将调整后的提示插入原始提示以防御视觉端对抗性攻击时，LVLM在干净图像上的性能可能会下降。这是因为额外的提示可能会引入不必要的信息，对模型的输出产生负面影响。

为此，我们提出了PromptGuard，这是一种基于提示调整的方法，用于保护大型视觉语言模型（LVLMs）免受视觉对抗性攻击，它利用了一种基于跨模态对齐组件（例如，InstructBLIP [4]中的指令感知Q-former）的新方法来对齐干净和对抗性样本之间的特征，而无需为VQA任务中的输入图像提供具体答案。使用Q-former提取的图像特征，我们在提示调整的背景下设计了一个组合损失函数，同时考虑了鲁棒性的提高和可学习提示可能导致的性能下降。我们的PromptGuard的效果在图1中进行了说明。通过结合对抗性调整后的提示和原始提示，可以减少对抗性扰动对输入图像的影响，从而提高模型对抗攻击的鲁棒性。据我们所知，这是第一项将提示调整范式应用于防御LVLMs对抗性攻击的工作。总之，我们的主要贡献包括：

•

我们提出了一种通过调整后的提示来保护大型视觉语言模型（LVLMs）免受对抗性攻击的新方法，称为PromptGuard，利用了提示调整技术。

•

我们解决了构建PromptGuard的两个关键挑战：通过利用嵌入在LVLMs中的跨模态模块来减轻对抗性特征和减少调整后提示的副作用，而无需对整个模型进行微调。

•

我们进行了广泛的实验来验证PromptGuard的效果，证明了它在防御LVLMs对抗性攻击方面的实用性，并且与现有的基于图像的防御方法相比具有更高的效率。

•

我们将PromptGuard集成到现有的防御方法中，进一步增强了它们的防御效果，并展示了其作为增强LVLMs对抗性鲁棒性的即插即用模块的兼容性。

部分摘录

大型视觉语言模型（LVLMs）

大型语言模型（LLMs）在语言任务中的突破性成功激励研究人员利用它们的能力进行多模态应用[32]、[33]、[34]，从而开发出了结合LLMs和视觉编码器[35]的大型视觉语言模型（LVLMs）。为了弥合文本和视觉模态之间的差距，像InstructBLIP [4]和BLIVA [5]这样的模型使用可学习的查询来提取视觉特征，然后由LLMs生成文本输出。

初步介绍

为了实现多模态理解，LVLMs通常包括三个关键组件：(i) 一个图像模型V（·），负责从输入图像中提取视觉特征；(ii) 一个跨模态对齐模型Q（·），将视觉特征与语言模型对齐；以及(iii) 一个语言模型M（·），即一个大型语言模型（LLM），用于处理自然语言。如图2所示，给定一个输入图像x和一个指令p，一个指令感知的Q-former提取

实验设置

数据集。我们在三个不同的任务上评估我们的方法：视觉问答（VQA）、图像分类和图像描述。对于VQA，我们使用MS-COCO验证数据集[56]中的图像。VQA提示包括两类：(1) 图像不可知问题（VQA_general）和(2) 图像特定问题（VQA_specific）。图像特定问题来自VQA-v2 [57]，而图像不可知问题是为本研究专门制作的。对于分类和

讨论

解释调整后的提示向量。 在这一部分，我们旨在解释调整后的提示向量学会了什么，以便有效地减轻输入图像中的对抗性特征。为此，我们通过计算学习到的提示向量与词汇表中单词嵌入之间的余弦相似度来搜索与调整后向量最相似的单词，如表9所示。结果表明，最接近的单词并不直观易懂，这表明

结论

这项工作从一个新的视角探讨了LVLMs的对抗性鲁棒性增强：提示调整。通过利用嵌入在LVLMs中的跨模态组件，我们调整了一系列可学习的提示，称为PromptGuard，以对齐来自干净和对抗性输入的图像特征。这种对齐减轻了攻击引起的对抗性特征，保护LVLMs产生正确的输出。为了最小化额外提示的副作用，我们提出了一个组合损失函数