最近,大型视觉语言模型(LVLMs)[1]、[2]、[3]、[4]、[5]、[6]在包括图像分类、图像描述和视觉问答(VQA)[7]在内的各种任务中展示了出色的能力。然而,它们对抗对抗性攻击的鲁棒性仍然是一个关键问题。最近的研究[8]、[9]、[10]、[11]、[12]、[13]强调了LVLMs对其输入数据的微妙扰动的脆弱性,特别是在涉及多模态交互的情景中。攻击者可以通过对输入图像进行难以察觉的修改来利用这些弱点,导致LVLMs生成错误的输出。LVLMs的交互性质,特别是在VQA等任务中,进一步放大了它们对抗性操纵的易感性,这引发了关于它们在安全关键应用中部署的严重担忧[14]、[15]、[16]、[17]。因此,开发有效的防御机制来保护LVLMs免受此类攻击至关重要。
为了对抗深度神经网络中的对抗性威胁,已经研究了几种防御策略[18]、[19]、[20]、[21]、[22]、[23],每种策略都有其独特的特点:(i) 输入去噪 [18]、[19]、[20]、[24]试图使用基于扩散的净化或预处理方法从输入样本中去除对抗性扰动。(ii) 对抗性训练 [21]、[22]、[23]通常被构建为一个最小-最大优化问题,在每次训练迭代时生成对抗性示例以更新模型。尽管这些方法有效,但基于去噪的方法也可能改变合法输入,从而可能降低模型的整体性能。对抗性训练计算成本高昂,对于通常由数十甚至数百亿个参数组成的大规模LVLMs来说不切实际。此外,这些成熟的防御策略主要是为传统视觉任务量身定制的,因此在专门为LVLMs设计的鲁棒防御方面存在空白。
为了填补这一空白,出现了一项新的研究方向[25]、[26],专注于通过对抗性提示调整(APT)[27]、[28]、[29]、[30]来增强预训练的视觉语言模型的对抗性鲁棒性。通过将一些调整后的提示插入原始提示中,像CLIP [31]这样的模型将在分类任务中对视觉对抗性攻击更加鲁棒。然而,由于LVLMs和预训练的视觉语言模型之间的差距,在将对抗性提示调整范式转移到LVLMs时出现了几个挑战,尤其是在像视觉问答(VQA)这样更复杂的任务中:(i) 如何对齐对抗性和干净样本之间的特征?与分类任务中的对抗性训练或提示调整不同,VQA任务没有输入样本的固定答案。这使得在对抗性和干净样本之间对齐特征时考虑所有可能的问题和答案变得不切实际。(ii) 如何减少可学习提示对干净输入数据的副作用?当将调整后的提示插入原始提示以防御视觉端对抗性攻击时,LVLM在干净图像上的性能可能会下降。这是因为额外的提示可能会引入不必要的信息,对模型的输出产生负面影响。
为此,我们提出了PromptGuard,这是一种基于提示调整的方法,用于保护大型视觉语言模型(LVLMs)免受视觉对抗性攻击,它利用了一种基于跨模态对齐组件(例如,InstructBLIP [4]中的指令感知Q-former)的新方法来对齐干净和对抗性样本之间的特征,而无需为VQA任务中的输入图像提供具体答案。使用Q-former提取的图像特征,我们在提示调整的背景下设计了一个组合损失函数,同时考虑了鲁棒性的提高和可学习提示可能导致的性能下降。我们的PromptGuard的效果在图1中进行了说明。通过结合对抗性调整后的提示和原始提示,可以减少对抗性扰动对输入图像的影响,从而提高模型对抗攻击的鲁棒性。据我们所知,这是第一项将提示调整范式应用于防御LVLMs对抗性攻击的工作。总之,我们的主要贡献包括:
•我们提出了一种通过调整后的提示来保护大型视觉语言模型(LVLMs)免受对抗性攻击的新方法,称为PromptGuard,利用了提示调整技术。
•我们解决了构建PromptGuard的两个关键挑战:通过利用嵌入在LVLMs中的跨模态模块来减轻对抗性特征和减少调整后提示的副作用,而无需对整个模型进行微调。
•我们进行了广泛的实验来验证PromptGuard的效果,证明了它在防御LVLMs对抗性攻击方面的实用性,并且与现有的基于图像的防御方法相比具有更高的效率。
•我们将PromptGuard集成到现有的防御方法中,进一步增强了它们的防御效果,并展示了其作为增强LVLMs对抗性鲁棒性的即插即用模块的兼容性。