随着技术的快速发展,面部识别已成为日常生活的重要组成部分,在访问控制、身份验证和在线支付中发挥着关键作用(参见Dong等人(2019年);Kemelmacher-Shlizerman等人(2016年);Li等人(2022年);Zhao等人(2003年)的研究)。尽管面部识别高效且方便,但它仍然容易受到伪造攻击。为了提高其安全性和可靠性,面部防伪(FAS)技术因此成为学术界和工业界的研究和开发重点。
早期的FAS方法主要依赖于手工制作的特征来揭示伪造线索(参见Boulkenafet等人(2015年);de Freitas Pereira等人(2012年);Määttä等人(2011年))。随着深度学习的快速发展,基于卷积神经网络(CNN)的方法(参见Jourabloo等人(2018年);Wang等人(2020年);Yu, Li, Niu, Shi, Zhao, 2020a;Yu, Zhao, Wang, Qin, Su, Li, Zhou, Zhao, 2020c)能够有效地捕捉局部细粒度细节,显著提高了FAS的性能。随后,视觉变换器(ViT)(George和Marcel,2021年;Li等人(2024c);Wang等人(2022a);Zhu和Xiang,2023年)被应用于FAS,通过其强大的全局建模能力进一步提升了检测精度。然而,这些方法在遇到未知攻击类型或未见过的领域时仍然会出现性能下降。这主要是由于训练数据和测试数据之间的分布差异,严重限制了它们在现实世界场景中的泛化能力。
为了解决这一挑战,领域泛化(DG)被引入到FAS领域。基于DG的方法(参见Cai等人(2024年);Jia等人(2020年);Kong等人(2024年);Liu等人(2021a);Shao等人(2019年);Wang等人(2022b)从多个源领域学习,以最小化领域间特征分布的差异。这些方法使得能够训练出能够很好地泛化到未见过的领域的鲁棒模型。然而,大多数现有方法主要依赖于来自空间域的纹理或结构信息,这些信息极易受到领域变化的影响。相比之下,频域表示为DG提供了另一种视角,揭示了更深层次的结构模式。研究表明(参见Gonzalez等人(2009年);Xu等人(2021年),低频成分主要包含平滑的结构信息,但仍容易受到领域变化的影响。相反,高频成分主要捕捉纹理和细节,通常对领域变化不敏感,因此具有更好的跨领域泛化能力。受这些见解的启发,最近的研究开始将频域信息纳入FAS(参见Chen等人(2021b);Fang等人(2022年);Miao等人(2023年))。然而,这些方法通常仅利用高频伪影或低频异常来发现伪造线索。因此,如何动态利用不同频段之间的互补信息来揭示伪造线索仍然是一个关键挑战。
为了解决这个问题,我们提出了一种基于频域的、具有相似性意识的对比学习方法用于FAS。一方面,我们设计了一个频域自适应增强模块来挖掘区分性信息。由于不同频段在结构和纹理上的差异,该模块首先动态调整多个频段的权重以捕捉更鲁棒的区分性线索。然后,通过空间注意力自适应地增强这些线索,进一步放大真实面部和伪造面部之间的差异。另一方面,尽管高频信息对领域变化不敏感,但它容易受到环境变化和后处理操作的影响。为了减轻这种脆弱性,我们引入了一种高频信息重构策略。具体来说,我们随机用原始高频成分替换高频谱的一部分,构建一个混合表示。这种策略在保持结构一致性和增强细微伪造线索的显著性之间取得了平衡。所得到的混合表示作为辅助特征,补充了频域自适应增强图像的输出。最后,我们构建了一个相似性矩阵来量化类内和类间的关系。通过最小化类内相似性和最大化类间相似性,我们学习了同一类样本之间的一致表示,并增强了真实面部和伪造面部之间的语义区分。这种相似性约束策略有效地减少了跨领域分布差异,从而缓解了领域变化问题。本文的主要贡献如下:
•我们设计了一个频域自适应增强模块,根据不同频段的权重动态地整合它们,以充分利用它们的互补性并有效学习与领域无关的特征。
•我们提出了一种高频信息重构策略,通过随机将原始频谱与其对应的高频成分混合来保持结构一致性,同时突出真实面部和伪造面部之间的细微伪造线索。
•为了缩小跨领域分布差异,我们构建了一个相似性矩阵来测量不同类型面部样本之间的关系,然后建立了一个对比学习目标,以强化类内紧凑性和类间可分性。