目前方法存在的问题：

1、依赖于堆叠卷积的专家设计的网络，在描述详细的细粒度信息方面很弱，并且在环境变化时容易失效，如照明差异

2、使用长序列作为输入提取动态特征，不适用于需快速响应的场景中。

本文提出的方法：

提出基于中央差分卷积（CDC）的新型帧级FAS方法，通过聚合强度和梯度信息来捕获内在的详细模式。使用CDC构建的网络称为中央差分卷积网络（CDCN），与普通卷积网络对比，它能够提供更强大的建模能力。

此外，在专门设计的CDC搜索空间上，利用神经架构搜索（NAS）来发现更强大的网络结构（CDCN），该结构可以与多尺度注意力融合模块（MAFM）组合以进一步提高性能。

该项目在六个基准数据集上进行了综合实验，以表明 1）所提出的方法不仅在数据集内测试（尤其是 OULU-NPU 数据集的 Protocol-1 中的 0.2% ACER）上取得了优异的性能，2）它还在跨数据集测试（特别是从 CASIA-MFSD 到 Replay-Attack 的 6.5% HTER）上具有良好的泛化能力。

1引言

近年来，已经提出了几种基于手工提取特征和基于深度学习的方法进行演示攻击检测。一方面，经典的手工描述符利用相邻信息之间的局部关系作为判别特征，这对于描述真实和欺骗人脸之间的详细不变信息是稳健的。另一方面，由于具有非线性激活的堆叠卷积操作，卷积神经网络 (CNN) 具有强大的表示能力来区分真实和 PA。然而，基于 CNN 的方法侧重于更深层次的语义特征，这些特征在描述活人脸和欺骗人脸之间的详细细粒度信息方面很弱，并且在环境变化（例如不同的光照度）时容易失效。如何将局部描述符与卷积操作相结合以实现稳健的特征表示值得探索。

最近基于深度学习的 FAS（人脸反欺骗）方法通常建立在基于图像分类任务的主干 [61,62,20] 之上，例如 VGG [54]、ResNet [22] 和 DenseNet [23]。网络通常由二元交叉熵损失监督，这很容易学习任意模式，例如屏幕边框，而不是欺骗模式的性质。为了解决这个问题，已经开发了几种深度监督 FAS 方法 [4,36]，它们利用伪深度图标签作为辅助监督信号。然而，所有这些网络架构都是由人类专家精心设计的，这可能不是 FAS 任务的最佳选择。因此，应考虑使用辅助深度监督自动发现最适合 FAS 任务的网络。

大多数现有的最先进的 FAS 方法 [36,56,62, 32] 需要多帧作为输入来提取 PAD 的动态时空特征（例如，运动 [36,56] 和 rPPG [62,32]）。然而，长视频序列可能不适合需要快速做出决定的特定部署条件。因此，尽管与视频级方法相比性能较差，但从可用性的角度来看，帧级 PAD 方法是有利的。设计高性能的帧级方法对于现实世界的 FAS 应用至关重要。

原版卷积网络无法捕获一致的欺骗模式，而CDC能够提取不变的详细欺骗特征。

受上述讨论的启发，我们提出了一种称为中心差分卷积 (CDC) 的新型卷积算子，它擅长描述细粒度的不变信息。如图 1 所示，在不同环境中，CDC 比普通卷积更有可能提取内在的欺骗模式（例如，晶格伪影）。此外，在专门设计的 CDC 搜索空间上，神经架构搜索 (NAS) 用于发现用于深度监督人脸反欺骗任务的优秀帧级网络。我们的贡献包括：

我们设计了一种称为中央差分卷积 (CDC) 的新型卷积算子，由于其对不同环境中的不变细粒度特征具有卓越的表示能力，因此适用于 FAS 任务。在不引入任何额外参数的情况下，CDC 可以替换现有神经网络中的普通卷积和即插即用，形成具有更强大建模能力的中心差分卷积网络 (CDCN)。
我们提出了CDCN++，它是CDCN的扩展版本，由搜索到的骨干网络和多尺度注意力融合模块（MAFM）组成，用于有效地聚合多级CDC特征。
据我们所知，这是第一种为 FAS 任务搜索神经架构的方法。与之前由 softmax loss 监督的基于 NAS 的分类任务不同，我们在专门设计的 CDC 搜索空间上搜索适合深度监督的 FAS 任务的帧级网络。
我们提出的方法通过内部和跨数据集测试在所有六个基准数据集上实现了最先进的性能。

2相关工作

人脸反欺骗：传统的人脸反欺骗方法通常从人脸图像中提取手工制作的特征来捕获欺骗模式。几个经典的局部描述符，如 LBP [7,15]、SIFT [44]、SURF [9]、HOG [29] 和 DoG [45] 用于提取帧级特征，而视频级方法通常捕获动态线索，如动态纹理[28]、微动作 [53] 和眨眼 [41]。最近，针对帧级和视频级人脸反欺骗提出了一些基于深度学习的方法。对于帧级方法[30,43,20,26]，预训练的深度CNN模型被微调以在二元分类设置中提取特征。相比之下，引入了辅助深度监督 FAS 方法 [4,36] 以有效地学习更详细的信息。另一方面，提出了几种视频级 CNN 方法来利用 PAD 的动态时空 [56,62,33] 或 rPPG [31,36,32] 特征。尽管实现了最先进的性能，但基于视频级深度学习的方法需要长序列作为输入。此外，与传统的描述符相比，CNN 容易过拟合，并且很难在看不见的场景上很好地泛化。

卷积操作：卷积算子常用于深度学习框架中提取基本视觉特征。最近已经提出了对普通卷积算子的扩展。在一个方向上，经典的局部描述符（例如，LBP [2] 和 Gabor 滤波器 [25]）被考虑到卷积设计中。代表性工作包括Local Binary Convolution [27] 和Gabor Convolution [38]，它们分别是为了节省计算成本和增强对空间变化的抵抗力而提出的。另一个方向是修改聚合的空间范围。两个相关的工作是拨号卷积 [63] 和可变形卷积 [14]。然而，这些卷积算子可能不适合 FAS 任务，因为不变的细粒度特征的表示能力有限。