基于样本定制化特征对齐的清洁标签后门攻击研究

时间:2025年8月25日
来源:Expert Systems with Applications

编辑推荐:

本文提出了一种创新的清洁标签(clean-label)后门攻击框架,通过样本定制化特征对齐技术,在低投毒率(p≤1%)和严格扰动预算(ϵ≤16/255)条件下显著提升攻击成功率(ASR)。该方法通过计算目标标签样本的特征质心,将源标签样本特征与之对齐,有效强化了触发模式与目标标签的关联性,在CIFAR-10等基准数据集上实现了95.1%的ASR,同时保持对清洁数据的高分类精度,对现有防御措施展现出强鲁棒性。

广告
   X   

Highlight

• 我们发现毒化样本生成过程中的样本选择显著影响攻击效率:具有较低逻辑特(logit)值的样本更能提升攻击效能

• 首创通过计算目标标签样本特征质心,建立源标签样本与目标标签的强关联,使攻击效率提升37.6%

• 在CIFAR-10等数据集验证显示,本方法在严苛条件(p≤1%,ϵ≤16/255)下ASR达95.1%,远超Label-consistent等基线方法

Methodology

如图4所示,本方案包含四步曲:1)触发器生成:通过算法1生成扰动模式δt,采用裁剪操作Clip(z;ϵt)确保隐蔽性;2)数据投毒:将源标签样本特征与目标类质心对齐;3)受害者模型训练;4)攻击实施。关键创新在于将目标类特征质心作为正则项融入损失函数,形成双重优化机制。

Experiments

在CIFAR-10等数据集的三重复实验表明:1)1%投毒率下ASR达95.1%,较Label-consistent(需50%投毒)提升40.6%;2)ϵ=16/255时仍保持93.7%攻击成功率;3)对STRIP等防御方法的鲁棒性达89.2%。

Discussion and Future Work

本方法突破现有clean-label攻击三大局限:1)摆脱高投毒率依赖(p>10%);2)消除静态触发器语义割裂问题;3)在医疗影像等场景展现特殊价值——例如胸部X光片中,0.8%投毒即可导致误诊率上升至91.3%。未来将探索在垂直联邦学习(VFL)中的跨模态应用。

Conclusion

通过特征对齐技术革新清洁标签后门攻击范式,在严格约束条件下实现ASR突破性提升,为AI安全领域提供新的攻防研究基准。

生物通微信公众号
微信
新浪微博


生物通 版权所有