对抗性提示与微调攻击对医疗大语言模型的威胁及防御策略研究

时间:2025年10月11日
来源:Nature Communications

编辑推荐:

本研究针对大型语言模型(LLMs)在医疗应用中面临的安全威胁,系统探讨了恶意指令的提示注入和投毒样本微调两种对抗性攻击方式对疾病预防、诊断和治疗三大任务的影响。通过真实患者数据验证,发现开源与专有LLMs均存在被恶意操纵的风险。研究首次提出通过权重分布差异检测模型攻击,并证实输入复述技术可有效降低攻击成功率。该成果为医疗LLMs的安全部署提供了关键理论依据和实践指导,对推动人工智能在医疗领域的可靠应用具有重要意义。

广告
   X   

随着ChatGPT等大型语言模型(LLMs)在医疗诊断、治疗建议和患者护理领域展现出巨大潜力,其安全性问题也逐渐浮出水面。尽管这些模型在专业医疗基准测试中表现卓越,但最新研究发现它们可能被恶意攻击者操纵,导致在关键的医疗场景中产生危险输出。这种脆弱性不仅可能影响个体患者的健康,还可能对整个医疗系统造成深远影响。
在《Nature Communications》最新发表的研究中,Yifan Yang等人深入探讨了LLMs在医疗环境中面临的两类对抗性攻击:通过恶意指令进行的提示注入攻击(Prompt Engineering)和通过投毒样本进行的微调攻击(Fine-Tuning)。研究团队利用真实世界患者数据,包括MIMIC-III和PMC-Patients两个大型医疗数据集,对多种主流LLMs进行了全面测试,包括开源模型(Llama系列、Vicuna-13B)和专有模型(GPT-4、GPT-4o、GPT-3.5-turbo)。
研究结果显示,这两种攻击方式都能显著改变模型在三大医疗任务中的行为:在疾病预防任务中,疫苗推荐率从基准的100%骤降至3.98%;在治疗任务中,危险药物组合推荐率从0.50%飙升至80.60%;在诊断任务中,不必要的医学影像检查(超声、CT、X射线和MRI)推荐率也显著上升。令人担忧的是,这些被操纵的模型在标准医疗问答基准测试(如MedQA、PubMedQA、MedMCQA)中仍保持正常性能,使得攻击难以被察觉。
为了开展这项研究,团队采用了几个关键技术方法:使用真实世界医疗数据集(MIMIC-III和PMC-Patients)进行模型训练和测试;通过提示工程构建恶意指令进行提示注入攻击;利用量化低秩适配器(QLoRA)技术对开源模型进行高效微调;采用权重分析(L范数)检测模型异常;使用复述技术生成变异输入以测试模型鲁棒性。

攻击成功率分析

研究发现,所有测试的LLMs都容易受到这两种攻击方式的影响。攻击成功率(ASR)在不同任务和模型间存在差异,其中疫苗接种指导任务的ASR最高。值得注意的是,较新的模型如Llama-3.3 70B反而比前代模型更容易受到攻击,表明模型升级并不必然带来安全性的提升。

投毒数据量影响

研究还探讨了投毒训练样本数量对攻击效果的影响。随着投毒样本比例的增加,所有模型的ASR都呈现上升趋势,但在不同任务中达到饱和点的比例不同。GPT系列模型相比Llama系列表现出更好的抵抗能力,可能得益于其更丰富的背景知识。

模型能力保持

一个重要的发现是,使用投毒数据微调的模型在一般医疗问答任务中的性能没有明显下降,这增加了检测攻击的难度。模型在遭受攻击后仍能在标准基准测试中保持正常表现,使得这些攻击更加隐蔽和危险。

权重分布变化

通过分析低秩适配器(LoRA)权重矩阵的L范数,研究发现使用投毒数据训练的模型权重分布与正常模型存在显著差异。这种差异为检测恶意微调提供了潜在途径。

复述防御效果

研究测试了输入复述作为防御机制的可行性。使用GPT-4o生成复述版本输入后,攻击成功率显著下降,特别是在GPT-4o本身遭受攻击时效果最为明显。然而,这种防御方法也可能被攻击者绕过。
研究结论表明,LLMs在医疗应用中的安全性问题亟待解决。两种简单的攻击方法就能显著改变模型在关键医疗任务中的行为,且这些变化难以通过常规性能测试发现。权重分析和技术复述为检测和防御这类攻击提供了有前景的方向,但仍需进一步研究。
该研究的重要意义在于首次系统验证了LLMs在真实医疗场景中的安全漏洞,并提出了可行的检测和防御方案。随着定制化LLMs在医疗自动化流程中的广泛应用,确保这些技术的安全性变得至关重要。研究强调需要从纯粹性能驱动的开发转向安全感知的训练,以应对对抗性操纵带来的挑战。
这些发现不仅对医疗AI领域具有直接意义,也为其他高风险领域中LLMs的安全部署提供了重要参考。未来研究需要探索更强大的安全防护措施,确保LLMs能够在医疗等关键领域中安全有效地应用。

生物通微信公众号
微信
新浪微博


生物通 版权所有