SFD-ViT:一种结合补丁嵌入的空间-频率双流变换器,用于面部伪造检测

时间:2025年11月9日
来源:Knowledge-Based Systems

编辑推荐:

本文提出一种基于空间-频率双流视觉Transformer(SFD-ViT)的伪造人脸检测方法,通过融合RGB图像和离散余弦变换(DCT)频率域特征,结合轻量级EfficientNetV2-S主干网络、自适应SE特征增强模块以及Transformer全局一致性融合机制,有效识别多种伪造技术,实验表明其性能优于现有基线模型。

广告
   X   

杨一康|邓玉琳|易秋旭|易俊
重庆科学技术大学计算机科学与工程学院(人工智能学院),中国重庆市沙坪坝区大学城东路20号,401331

摘要

生成模型的快速发展,如生成对抗网络和扩散模型,使得高度逼真的伪造面部图像得以合成,这对安全和隐私构成了重大威胁。因此,开发强大的面部伪造检测算法变得至关重要。在这项工作中,我们提出了一种新颖的空间-频率双流视觉变换器(SFD-ViT),它能够从空间域和频率域揭示出细微的伪造痕迹。具体来说,我们的框架采用了预训练的EfficientNetV2-S作为特征提取的核心,引入了Squeeze-and-Excitation模块来增强判别性表示,并结合了带有Patch Embedding的Transformer模块来捕捉全局不一致性。在多个面部伪造数据集上的广泛实验表明,SFD-ViT始终优于基线方法,在多种伪造技术下都表现出优异的性能。总体而言,这项工作为保护面部检测系统免受新兴伪造威胁提供了有效的解决方案。

引言

图像是信息传输的重要媒介,其真实性和安全性已成为社会关注的焦点[1]。恶意伪造的图像可能被未经授权地传播,从而威胁个人隐私、商业利益和公共安全[2]。作为生物特征的重要形式,人脸被广泛用于身份验证或支付系统[3]、[4]。然而,作为个人隐私数据的重要组成部分,未经授权使用面部图像可能导致身份盗窃、欺诈行为,甚至威胁个人财产的安全[5]。因此,随着面部检测技术的日益普及,确保其安全性和可靠性已成为学术界和工业界共同关注的问题。
生成模型通过学习数据分布来生成高度相似的新数据[6]。它们在图像合成、文本生成和音频处理方面展示了强大的能力[7]、[8]。因此,生成模型能够生成难以与真实图像区分的逼真伪造面部图像[9]、[10]、[11]、[12]。虽然一些伪造面部图像是出于娱乐目的创建的,但这些行为仍可能影响个人声誉和隐私。更严重的是,恶意伪造的面部图像可能被用于进行非法或犯罪活动,如金融欺诈和身份盗窃[13]、[14]。因此,开发高效且强大的面部伪造检测器对于维护社会安全至关重要。
面部伪造生成技术的快速发展促使了大量研究致力于开发强大的检测器,但仍需要创新来应对不断发展的生成模型[15]。现有方法主要关注伪造面部创建过程中引入的可见痕迹,如面部几何形状的不一致或纹理不规则性。这使得难以全面捕捉多域伪造特征,导致在检测高质量生成图像时性能较差。因此,充分探索多域信息的互补性对于模型学习更多伪造特征是必要的。然而,多域信息(如空间域和频率域)具有不同的特性,整合重要特征仍然是一个亟待解决的问题。基于这些背景和问题,我们进行了这项研究,希望能够抵抗日益先进的面部伪造方法的影响。
本工作的主要贡献总结如下:
我们提出了一种新颖的空间-频率双流视觉变换器(SFD-ViT)架构。我们的模型并行处理RGB图像及其频率表示(通过离散余弦变换DCT),从而能够捕捉更全面的伪造痕迹。
  • 我们设计了一个自适应的特征增强流程。我们首先使用轻量级的EfficientNetV2-S(ENV2S)进行特征提取,然后在每个流中应用Squeeze-and-Excitation(SE)模块。SE模块突出关键模式并抑制无关特征,从而专注于对分类更相关的特征。
  • 我们引入了一个基于Transformer的融合模块,该模块结合了Patch Embedding,以捕捉双流特征的长距离依赖性。这使得模型能够识别面部伪造的全局不一致性,而这些往往是局部感受野模型所忽略的。
  • 我们在包含多种伪造技术的多个数据集上进行了广泛实验。结果表明,我们的SFD-ViT优于现有的基线模型。消融研究进一步严格验证了每个组件的有效性。
  • 本文的结构如下:第2节介绍相关研究;第3节详细介绍所提出的模型;第4节描述数据集、实验设置和结果;第5节展示消融研究和结果;第6节进行总结和讨论;第7节对工作进行总结。

    相关研究

    深度生成模型可能被恶意用于创建逼真的伪造面部图像和视频,这会损害公众的信任[16]。因此,开发强大且通用化的面部伪造检测器已成为一个紧迫且关键的挑战[17]。在本节中,我们简要介绍了现有的相关工作。

    方法论

    本节将描述所提出的SFD-ViT。首先将介绍整体架构,然后在第3.2至3.5节详细介绍模型。

    实验

    实验内容将在本节中展示。第4.1节和第4.2节分别介绍数据集和实验设置;第4.3节至第4.9节将展示实验结果。

    消融研究

    在本节中,我们设计了消融实验来验证所提出架构中每个模块的有效性。消融实验的设置在第5.1节中描述,结果在第5.2节中展示。

    总结

    精确度和召回率:我们认识到,在某些数据集上,其他模型可能会获得略高的精确度或召回率。一方面,这些模型可能在特定的面部伪造方法上表现出更高的专化性。相比之下,我们的方法旨在学习更通用和基础的伪造特征,可能在单个数据集或指标上不是最好的,但能在各个方面保持一致的高性能。另一方面,F1分数提供了更平衡的评估标准

    结论

    面部伪造检测技术的安全性和可靠性直接关系到个人隐私和社会信任。因此,迫切需要开发检测技术来应对由先进生成模型产生的面部伪造。为了解决这一挑战,本文提出了空间-频率双流视觉变换器(SFD-ViT)检测方法。SFD-ViT同时利用原始RGB图像及其频率域图像(通过离散余弦变换获得)

    CRediT作者贡献声明

    杨一康:撰写 – 审稿与编辑,撰写 – 原始草稿,可视化,验证,资源获取,调查,资金筹集,形式分析。邓玉琳:撰写 – 原始草稿,软件开发,方法论,数据管理。易秋旭:软件开发,方法论,数据管理。易俊:撰写 – 审稿与编辑,监督,项目管理,概念构思。

    利益冲突声明

    作者声明他们没有已知的财务利益冲突或个人关系可能影响本文所述的工作。

    致谢

    本工作得到了中国自然科学基金(项目编号CSTB2023NSCQ-MSX0796)、中国重庆市教育委员会科技研究计划青年项目(项目编号KJQN202401544和KJQN202501525)、重庆科学技术大学研究基金(项目编号ckrc202212055)以及重庆师范大学研究基金(项目编号25XLB016)的支持。

    生物通微信公众号
    微信
    新浪微博


    生物通 版权所有