基于混合词级对抗策略的问答模型欺骗攻击研究(QA-Attack)及其防御启示

时间：2025年9月22日

来源：Neural Networks

编辑推荐：

本研究针对当前问答(QA)模型在对抗攻击下的脆弱性问题，提出了一种新型词级对抗攻击框架QA-Attack。通过融合注意力机制与删除排序策略，该方法能够精准识别上下文中的关键词汇，并借助同义词替换生成语义保持的对抗样本。实验表明，QA-Attack在多个基准数据集上显著降低了T5、BERTbase等模型的F1与EM分数，同时保持较高的BLEU和ROUGE分数，证明了其在布尔查询和信息查询中的通用性与高效性。该研究为QA模型的鲁棒性评估与防御机制设计提供了重要参考。

在人工智能技术飞速发展的今天，问答系统已成为人们获取信息的重要桥梁，从智能客服到医疗诊断，从法律咨询到金融分析，这些系统正深刻改变着人类与信息交互的方式。然而，尽管基于深度学习的问答模型在各类自然语言处理（NLP）任务中表现出色，它们的脆弱性却鲜被重视——只需对输入文本进行细微的改动，就可能导致模型输出完全错误的答案，这种安全隐患在医疗、法律等高风险领域尤为致命。

以往的研究试图通过句子级修改或梯度攻击来欺骗模型，但这些方法往往无法同时应对两类核心问题：需要详细答案的"信息性查询"（如"谁领导了诺曼底公国？"）和只需判断真假的"布尔查询"（如"电影《陌生人》是基于真实故事吗？"）。更棘手的是，传统方法要么计算效率低下，要么会引入明显的语义偏差，使生成的对抗样本容易被人类或防御系统识别。

正是在这样的背景下，来自悉尼科技大学的研究团队在《Neural Networks》上发表了一项突破性研究，提出了一种名为QA-Attack的新型对抗攻击框架。该研究通过混合排名融合（Hybrid Ranking Fusion, HRF）算法，巧妙结合了注意力机制与词汇重要性排序，实现了对问答模型的精准攻击，同时在语义保持性和攻击效率方面设立了新标杆。

研究人员采用了一种多策略融合的技术路径：首先通过注意力权重分析（Attention-based Ranking, ABR）定位模型关注的关键词汇，同时利用删除排序（Removal-based Ranking, RBR）评估每个词汇对答案的影响程度；随后将两种评分融合，筛选出最脆弱的词汇进行替换；最后通过BERT的掩码语言模型（Masked Language Model, MLM）生成语义相似的同义词，确保生成的对抗样本在保持语言流畅性的同时有效误导模型。实验覆盖了SQuAD 1.1、BoolQ、NarrativeQA等7个数据集，并针对T5、LongT5和BERT_base等模型进行了全面评估。

4.1. 攻击效果全面领先

在针对T5模型的测试中，QA-Attack在SQuAD 1.1数据集上将F1分数降至4.67（越低越好），显著优于TASA（9.21）、TextFooler（10.6）等基线方法。特别是在布尔查询数据集BoolQ上，QA-Attack对T5模型的F1分数仅为8.64，而其他方法普遍在11-20之间徘徊。这表明该方法在两类查询任务中都表现出色，解决了现有方法适用性单一的问题。

4.5. 算法组件贡献分析

通过消融实验验证了HRF融合策略的有效性：纯注意力排名（ABR）和纯删除排名（RBR）的效果均不如二者融合。当注意力权重占比增加时，模型性能仅轻微下降，而删除排名权重的增加则导致性能显著恶化，证明注意力机制在识别关键词汇方面更具优势。

4.6. 效率优势明显

时间效率测试显示，QA-Attack在处理SQuAD 1.1样本时仅需10.61秒/样本，远低于TASA（15.82秒）和RobustQA（24.46秒）。这归功于其精准的词汇定位策略，避免了不必要的计算开销。

4.8. 防御机制突破

即使面对频率引导词替换（FGWS）和随机掩码训练（RanMASK）等先进防御机制，QA-Attack仍能保持较强的攻击效果。在FGWS防御下，QA-Attack对T5模型的EM分数为21.03，而其他方法普遍在22-34之间，证明其生成的对抗样本更难被检测和过滤。

4.10. 词性攻击模式创新

有趣的是，QA-Attack展现出独特的词性攻击偏好：在信息性查询中更倾向于攻击名词（34%）和其他功能词（36%），而在布尔查询中则主要针对形容词（25%）和其他词类（28%）。这种差异反映了模型在不同任务中的依赖差异——信息性查询更依赖实体词汇，而布尔查询更受修饰词影响。

该研究的结论部分指出，QA-Attack不仅暴露了现有问答系统的脆弱性，更为模型鲁棒性评估提供了新范式。通过词级扰动而非句子级修改，该方法在保持语义连贯性的同时实现了高效攻击，这对未来防御系统的设计具有重要启示意义。

值得注意的是，研究还发现模型规模与抗攻击能力存在正相关关系：BERT_large（L=24, H=1024）的抗攻击能力明显优于BERT_tiny（L=2, H=128），表明增加模型复杂度可能是提升鲁棒性的有效途径之一。

这项研究的意义远超出对抗攻击本身——它为我们理解深度学习模型的决策机制提供了新视角，也为构建更安全、可靠的问答系统指明了方向。在未来工作中，研究团队计划将QA-Attack扩展至多跳推理和多项选择等更复杂场景，并探索针对模型幻觉（hallucination）的定向攻击方法，最终目标是通过暴露弱点来构建更强大的AI系统。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部