改进可学习的描述性卷积视觉变换器以实现人脸防欺骗功能

生物通首页 > 今日动态 > 正文

改进可学习的描述性卷积视觉变换器以实现人脸防欺骗功能

时间：2026年2月13日

来源：Pattern Recognition

编辑推荐：

本文提出三种训练策略（双注意力监督、自挑战监督、过渡三元组挖掘）优化LDCformer模型，解决面部反诈骗中的细粒度标签缺乏、细微部分攻击检测和跨域问题，实验表明效果显著优于先前方法。

黄培凯|钟俊雄|徐明松|徐芳瑜|林怡婷|钱凯亨|徐秋婷

中国福建师范大学计算机与网络安全学院，福州

摘要

面部防欺骗（FAS）在很大程度上依赖于识别真实/伪造的面部特征来对抗面部展示攻击。最近，我们提出了LDCformer，成功地将可学习描述性卷积（LDC）集成到ViT中，以模拟局部描述性特征的长距离依赖性，用于FAS。在本文中，我们提出了三种新的训练策略，以有效增强LDCformer的训练效果，从而大幅提升其特征表征能力。第一种策略是双注意力监督，用于在区域性的真实/伪造注意力引导下学习细粒度的活性特征。第二种策略是自我挑战监督，通过生成具有挑战性的训练样本来提高特征的可区分性。此外，我们还提出了一种第三种训练策略——过渡三元组挖掘策略，通过缩小跨域差距同时保持真实特征和伪造特征之间的过渡关系，来增强LDCformer的领域泛化能力。大量实验表明，在这三种新训练策略的联合监督下，LDCformer的性能显著优于以往的方法，并验证了这些策略对其他网络架构的有效性和潜在适用性。

引言

面部识别和认证系统在日常生活中应用广泛，例如解锁手机、验证移动支付和在线银行交易。然而，将面部识别技术应用于这些场景也会带来潜在的安全风险，因此需要特定的技术来确保应用安全。因此，开发了许多面部防欺骗（FAS）方法来对抗面部展示攻击，如打印攻击、重放攻击和3D攻击。特别是在[1]中，我们通过将可学习描述性卷积（LDC）集成到常规卷积网络中，提高了CNN捕捉与面部展示攻击相关的内在特征的能力。受到LDC[1]优异性能的启发，在[2]中，我们进一步将LDC特征集成到ViT框架中，开发了可学习描述性卷积视觉变换器（LDCformer），以模拟FAS的长距离和区分特征。

由于LDCformer[2]仅使用交叉熵损失进行训练，因此在FAS领域仍面临三个主要挑战。首先，如[1]所述，FAS涉及真实面部和伪造面部之间高度相似的特征，需要更精细的表示方法来准确捕捉与面部欺骗攻击相关的内在特征。因此，第一个挑战在于缺乏细粒度的真实标签，这对于学习细粒度的活性特征至关重要。大多数基准数据集仅提供二进制真实标签来指示图像是真实的还是伪造的，但没有提供关于伪造区域位置的区域信息。因此，许多现有方法依赖于辅助监督，如面部深度图[3]和反射图[4]来指导FAS模型学习细粒度特征，如图1所示。虽然这些辅助监督在特定场景下有效，但它们严重依赖于所采用信息的可用性和质量，并不适用于所有场景。例如，面部深度对于检测3D面具攻击无效，因为伪造面部和真实面部的面部深度特征相似[5]。同样，反射图[4]也有限，因为在户外场景中，伪造面部和真实面部反射的阳光行为相似[5]。FAS的第二个挑战是检测微妙的局部伪造攻击。尽管大多数现有FAS方法旨在检测全脸伪造攻击，但它们常常忽略了局部伪造攻击的可能性。如图2所示，PADISI-Face数据集中的“搞笑眼睛”和“纸眼镜”攻击针对特定面部区域，从而增加了准确检测这些类型攻击的难度。最后，FAS的第三个挑战是跨域问题。由于不同的基准数据集是独立收集的，并且具有不同的分布特征，因此在某个数据集（即训练域）上训练的模型通常无法检测到其他未见数据集（即未见域）中的攻击。

在本文中，我们旨在通过解决上述三个挑战来大幅增强LDCformer[2]在FAS领域的能力。我们提出了三种新的训练策略来联合监督LDCformer的训练，包括双注意力监督、自我挑战监督和过渡三元组挖掘。首先，为了解决缺乏细粒度监督的问题，如图1所示，我们提出了双注意力监督，通过引入两个额外的注意力估计器，并在辅助模型的指导下进行训练，以鼓励LDCformer关注区域性的真实/伪造注意力。值得注意的是，这两个注意力估计器和辅助模型都是与LDCformer一起联合训练的，无需依赖任何外部辅助信息。接下来，为了检测微妙的局部伪造攻击，我们提出了一种自我挑战监督策略，通过混合真实图像和伪造图像来生成具有挑战性的增强数据，以增强LDCformer在活性特征和局部伪造攻击之间的区分能力。此外，为了解决跨域问题，我们提出了一种过渡三元组挖掘策略，通过缩小跨域差距同时保持真实特征和伪造特征之间的过渡关系，来增强学习特征的领域泛化能力。这三种策略共同训练LDCformer，使其能够学习高度真实/伪造的区分特征和领域泛化特征。在FAS基准测试上的实验结果表明，在这三种训练策略的联合监督下，LDCformer在领域内和跨领域测试场景中的性能均达到了最先进水平。

我们的贡献总结如下：

• 我们提出了三种新的训练策略，共同监督我们之前提出的LDCformer[2]的训练，以大幅扩展其在模拟FAS长距离和高度区分特征方面的能力。

• 双注意力监督、自我挑战监督和过渡三元组挖掘策略被开发出来，以明确解决缺乏细粒度标签的问题，提高对微妙局部伪造攻击的检测能力，并解决跨域问题。

• 我们的消融研究和实验比较验证了这些策略在鼓励LDCformer学习高度区分性和领域泛化特征方面的有效性。

部分内容

基于CNN的面部防欺骗

由于卷积神经网络（CNN）在许多计算机视觉任务中的巨大成功，基于CNN的方法已成为面部防欺骗的首选。早期的基于CNN的方法[5]、[7]在领域内测试场景中展示了有希望的检测性能。然而，当遇到来自新领域的未见面部展示攻击类型时，这些方法通常无法区分与训练数据显著不同的攻击。

提出的方法

在第3.1节中，我们首先回顾了可学习描述性卷积视觉变换器（LDCformer）[2]的框架。接下来，在第3.2节中，我们提出了三种新的训练策略，以共同指导LDCformer明确解决缺乏细粒度标签的问题、检测微妙的局部伪造攻击以及处理[2]中未探索的跨域测试问题。

数据集和评估指标

我们在两类主要的面部防欺骗数据库上进行了广泛实验：第一类包括打印攻击和重放攻击的数据集，包括OULU-NPU [21]（用O表示）、MSU-MFSD [22]（用M表示）、CASIA-MFSD [23]（用C表示）、Idiap Replay-Attack [24]（用I表示）和SiW [7]。第二类包括3D攻击的数据集，包括3DMAD [25]、HKBU-MARs [26]、CASIA-3DMask [5]和PADISI-Face [6]。如

结论

本文提出了三种新的训练策略，以增强我们之前提出的可学习描述性卷积视觉变换器（LDCformer）的学习能力。首先，为了解决缺乏细粒度监督的问题，我们提出了双注意力监督，以指导LDCformer学习细粒度的活性特征。接下来，为了提高对微妙局部伪造攻击的检测能力，我们提出了一种自我挑战监督策略，通过生成具有挑战性的增强数据来提高