基于高频特征空间分布的伪造人脸检测泛化增强方法

时间:2025年12月8日
来源:IEICE Transactions on Communications

编辑推荐:

本文针对生成对抗网络(GAN)等伪造技术生成的人脸图像难以检测的问题,提出了一种基于高频特征空间分布特性的泛化增强检测方法。通过分析高频分量的直方图概率分布,筛选最优截止频率的高通滤波器提取高频图像,并采用轻量级分类网络Xception进行检测。实验表明该方法在仅使用ProGAN伪造图像训练的情况下,对DCGAN、StarGAN、StyleGAN2和DeepFake等不同伪造技术生成的图像检测准确率分别达到98.47%、100%、85.43%和98.85%,展现出卓越的跨模型泛化能力。

广告
   X   

随着生成对抗网络(GAN)、自编码器(AE)和扩散模型等深度图像伪造技术的飞速发展,伪造人脸图像的逼真度已达到肉眼难辨的程度。这类技术虽在娱乐、艺术等领域展现应用潜力,但被恶意使用时可能制造虚假新闻、侵犯个人隐私,甚至威胁国家安全。人脸作为数字社会最常用的生物特征之一,其真伪鉴别对维护社会秩序具有至关重要的意义。
当前主流检测方法多基于监督学习,严重依赖训练数据的特定伪造模式,当面对新兴伪造技术时往往表现不佳。传统卷积神经网络(CNN)倾向于提取有限特征,而全局特征提取策略难以捕捉局部篡改痕迹,导致模型泛化能力受限。尤其值得关注的是,伪造图像在像素级缺乏自然成像过程中形成的连续相关性,这种本质差异在频域中表现得尤为明显。
为突破这一技术瓶颈,研究人员创新性地从频域角度切入,发现高频分量中蕴含着鉴别真伪的关键线索。通过分析图像的空间分布特性——即归一化直方图反映的像素强度统计特征,发现真实图像的高频分布曲线平滑连续,而伪造图像则呈现突变特征。这种差异在选取合适截止频率的高通滤波器后更为显著。
研究方法的核心技术包括三个关键环节:首先通过快速傅里叶变换(FFT)将灰度图像转换至频域,采用最佳截止半径的高通滤波器提取高频成分;随后通过逆傅里叶变换(iFFT)将高频信息重构为空间域图像;最后利用轻量级Xception网络进行分类检测。该网络采用深度可分离卷积架构,在保持精度的同时大幅降低计算复杂度。
实验设计充分考量实际应用场景,训练集仅包含CelebAMask-HQ真实人脸和ProGAN伪造图像各3000张,测试集则涵盖DCGAN、StarGAN、StyleGAN2、DeepFake以及扩散模型生成的多种伪造图像。这种跨模型验证方案有效模拟了现实世界中检测未知伪造技术的挑战。
高频分布特性分析表明,当高频成分占全频谱3/4时,不同伪造技术生成的图像呈现一致性分布规律。如图3所示,真实图像的高频分布(a)平滑连续,而ProGAN(b)、StarGAN(c)和DiFF(d)伪造图像在红色标记区域均出现明显突变,这种规律性差异为检测模型提供了稳定依据。
截止频率消融实验证实,过低截止频率(如9/10频谱)会导致真实图像间出现差异,过高截止频率(如1/4频谱)则会使部分伪造图像的高频信息消失。如表4所示,3/4频谱占比时检测性能最优,在DCGAN、ProGAN、StarGAN、StyleGAN2和DeepFake上的准确率分别达到98.4%、100%、100%、85.4%和94.0%。
输入特征对比实验显示,原始RGB图像检测效果最差(平均精度67.4%),相位谱特征(SPSL)为75.5%,梯度特征(Grad)提升至86.1%,而本文的高频特征方法达到94.3%的平均精度。这验证了基于空间分布特性的高频特征能更有效提取伪造痕迹。
预处理方法研究表明,双三次插值和JPEG压缩对检测精度影响微弱(波动<0.3%),而双线性插值会导致14.8%的性能下降。如图11所示,JPEG压缩后真实与伪造图像的高频分布差异依然显著,证明方法对常见后处理操作具有强鲁棒性。
与现有先进方法对比,本文方法在跨模型检测中平均精度达94.3%,显著优于F3Net(79.7%)、BiHPF(82.4%)等方法。特别是在扩散模型检测任务中,对CoDiff、FreeDoM和LoRA的检测精度分别达到80.9%、82.8%和89.8%,平均精度84.5%,优于FreqNet(79.1%)等最新频率检测网络。
研究结论表明,基于高频特征空间分布的检测方法能有效捕捉不同伪造技术的共性痕迹,通过优化截止频率和Xception网络架构,在保持轻量化的同时实现了卓越的泛化性能。该方法为应对快速演进的伪造技术提供了新思路,对数字内容安全认证具有重要意义。未来工作可进一步探索多频段融合策略和在嵌入式设备的部署优化。

生物通微信公众号
微信
新浪微博


生物通 版权所有