MWDP:多视图小波引导扩散净化器,用于鲁棒的模式识别

时间:2026年2月15日
来源:Neurocomputing

编辑推荐:

多视角小波引导扩散净化器通过融合RGB、深度和近红外特征提升语义一致性,并利用频率感知软掩码抑制低频扰动,有效增强模型对抗鲁棒性,实验表明其优于现有基线且跨模型泛化能力强。

广告
   X   

曾俊鹏|邱一春|周国旭
广东工业大学自动化学院,中国广州510006

摘要

扩散净化器(DPs)作为一种有前景的预处理模块,已被用于提升机器学习模型的对抗鲁棒性。尽管近期基于频率引导的DPs在利用小波方法增强净化效果方面取得了进展,但这些模型仍存在潜在的语义不一致性和频率感知能力有限的问题。为了解决这些问题,我们提出了多视图小波引导扩散净化器(MWDP),该算法整合了两种关键策略:(i)利用深度和近红外特征的多视图融合作为结构先验来引导语义一致性;(ii)采用软掩码学习来捕捉频率带的敏感性。MWDP是即插即用的,无需对目标模型进行任何修改,并且在面对强适应性攻击时仍能实现准确性和时间效率之间的良好平衡。实验结果表明,MWDP超越了现有的先进基线算法(如DiffPure和IWMF-Diff),展现了卓越的跨模型泛化能力和实际应用潜力。

引言

模式识别是许多机器学习任务的基础,但仍然容易受到对抗性扰动的影响,这些扰动会利用模型结构来操纵特征并破坏语义一致性[1]、[2]。最近,扩散模型在模拟复杂数据分布以及生成高质量输出方面展现了显著的能力,应用于合成、编辑和跨模态翻译等任务[3]、[4]、[5]、[6]。基于这些进展,扩散净化器(DPs)[7]、[8]被引入作为预处理模块,用于从对抗性扰动的输入中恢复干净且具有区分性的特征。图1展示了一个面部识别系统中对抗性攻击和基于DPs的防御机制的示例。
与对抗性训练[9]、[10]或传统防御方法[11]、[12]相比,DPs提供了对抗攻击的鲁棒性和跨模型泛化能力。然而,当前的DPs面临一些限制,这些限制阻碍了其实际应用。首先,对抗性扰动会在净化过程中系统性地破坏语义一致性;其次,现有的DPs对所有频率谱的处理方式缺乏针对性[13]、[14],未能有效利用对抗性扰动的结构化频率特征。这些限制表明,保持语义一致性和采用频率感知策略对于实现强大的防御性能至关重要。
为了解决这些问题,我们提出了多视图小波引导扩散净化器(MWDP),这是一个即插即用的框架,无需对目标模型进行任何修改即可增强对抗鲁棒性。MWDP结合了多视图特征融合来提升语义一致性,并通过频率感知的软掩码学习来捕捉结构化的频率扰动。在多种面部识别模型上的广泛实验表明,即使在强适应性攻击下,MWDP也能持续超越现有先进基线算法,展现出卓越的跨模型泛化能力和实际应用价值。
我们的主要贡献如下:
  • 多视图特征融合以实现语义一致性。
    我们设计了一个轻量级的预训练适配器,融合来自RGB、深度和近红外(NIR)图像的多视图特征,通过互补的结构先验来保持语义一致性,从而在对抗性扰动下提升鲁棒性。
  • 频率感知的软掩码学习。
    我们提出了一种基于多视图辅助特征引导的频率感知软掩码生成器,通过调节离散小波变换(DWT)分解得到的潜在表示,从而选择性地抑制低频带的扰动。
  • 泛化能力和时间效率。
    我们冻结了Stable Diffusion v2.1的底层模型,并训练轻量级的辅助模块,使MWDP能够在保持时间效率的同时,更好地泛化到未见过的数据集上,优于现有的基于扩散的净化器。
  • 章节摘录

    多视图学习

    多视图学习利用同一实例的不同视角(如不同的观察点、模态或传感器)的互补信息,构建出鲁棒且连贯的表示。该方法已广泛应用于识别和聚类任务[15]、[16]、[17]、[18]。除了识别之外,相关技术还扩展到了多视图视频编码和重建领域,其中利用跨视图相关性或辅助几何视图来提升重建质量

    潜在扩散模型(LDMs)

    潜在扩散模型(LDMs)[5]结合了变分自编码器(VAE)[31]和潜在空间中的扩散机制,在保持生成质量的同时实现了高计算效率。编码器将图像映射到一个紧凑的潜在表示中,然后扩散模块执行迭代去噪,解码器再重建高保真输出。
    通过引入外部信号(例如类别标签或文本嵌入)并通过交叉注意力机制[32]实现条件生成。

    实证观察

    我们从频域角度分析了对抗性扰动。实证证据表明,对抗性扰动主要集中在高频成分上[36],扩散模型中的堆叠自注意力层在生成过程中起到了低通滤波器的作用,逐渐抑制了这些高频信号[37]。然而,对抗性扰动也会降低扩散模型中的低频语义内容,导致交叉注意力机制的失准

    实验设置

    所有实验都在单个NVIDIA RTX 6000 GPU上进行,使用预训练的Stable Diffusion v2.1作为底层模型,并采用Hugging Face提供的官方权重。仅训练多视图特征融合适配器和软掩码生成器,采用渐进式学习率调度,最大学习率为

    结论与未来工作

    我们提出了MWDP,这是一种基于扩散的净化框架,它结合了自适应的频域调制和多视图特征融合来提升对抗鲁棒性。通过选择性地优化低频潜在成分并利用互补的多视图特征,MWDP有效抑制了对抗性扰动,同时保持了身份识别的准确性。广泛的实验证明了其卓越的鲁棒性和跨模型泛化能力

    CRediT作者贡献声明

    曾俊鹏:撰写——原始草稿、方法论、数据整理。邱一春:撰写——审稿与编辑、撰写——原始草稿、方法论。周国旭:撰写——审稿与编辑、监督、资金获取。

    利益冲突声明

    作者声明他们没有已知的财务利益冲突或个人关系可能影响本文的研究结果。

    致谢

    本研究部分得到了中国国家自然科学基金(项目编号62406077和607220518)的支持。
    曾俊鹏目前在中国广东工业大学攻读工程科学硕士学位,他的研究兴趣包括机器学习和对抗性鲁棒性。

    生物通微信公众号
    微信
    新浪微博


    生物通 版权所有