活体检测综述 Deep Learning for Face Anti-Spoofing: A Survey 阅读记录

论文链接:Deep Learning for Face Anti-Spoofing: A Survey | IEEE Journals & Magazine | IEEE Xplore

代码链接:https://github.com/ZitongYu/DeepFAS

1. 引言

人脸识别技术由于其便利性以及卓越的识别准确率,被广泛应用到不少交互式智能应用中,如移动支付。然而,人脸识别系统容易受到诸如打印纸张、视频播放、3D 头模等手段的攻击。因此,学术界和工业界都将注意力放在了人脸反欺骗 (FAS) 上,希望它能保护人脸识别系统。下图展示了近年来 FAS 相关研究的出版数量,表明 FAS 受到的关注热度在逐年上升。

活体检测综述 Deep Learning for Face Anti-Spoofing: A Survey 阅读记录_第1张图片

在早期,大量基于传统手工特征的方法被用于解决表示攻击检测 (PAD) 问题。大多数传统算法都是基于生理活性线索和手工特征设计的,这些设计需要大量的任务感知先验知识。然而,这些生理活性线索通常是从长期交互式的人脸视频中捕获的,这对实际部署来说并不方便。此外,活性线索很容易被视频攻击模仿,从而降低了线索的可靠性。另一方面,经典的手工特征描述符 (LBP、SIFT、SURF、HOG、DoG) 被设计来从不同的颜色空间 (RGB、HSV) 中提取有效的假体特征。

随后,研究人员提出了一些混合方法 (手工特征+深度特征) 和深度学习方法。大多数方法将 FAS 视为二分类问题,由简单的二分类交叉熵损失监督。与其它二分类视觉任务不同,FAS 是一个自进化问题 (即攻击与防御迭代发展),这使其更具挑战性。此外,其它二分类视觉任务 (例如,人类性别分类) 高度依赖明显的外观的语义线索 (例如,发型、穿着、面部形状),而 FAS 中的内在特征 (例如,材料和几何形状) 通常是与面部属性和身份无关的。因此,使用简单的二分类损失的卷积神经网络 (CNN) 可能会合理地挖掘不同类型的语义特征,但也可能会学歪 (把屏幕的边框当作区分信息),甚至会导致模型过拟合。为了解决这个问题,研究人员开始将辅助监督信息 (逐像素监督) 引入 FAS,这有利于模型学习细粒度特征。然而,之前的综述中介绍的大多都是传统的二分类监督模型,对于最近出现的逐像素监督方法则没有进行过多介绍。

同时,具有丰富攻击类型的大规模 FAS 数据集的出现也极大地推动了研究的发展。首先,具有大量样本和主题的数据集已经发布出来了。例如,CelebA-Spoof 记录了 10177 个不同 ID 的样本,真假人脸分别为 156384 和 469153 个。其次,除了常见的 PA 类型之外,一些最新的数据集包含更丰富且具有挑战性的 PA 类型。然而,现有的综述只调查了少数 (<15 个) 旧的小规模 FAS 数据集,这些数据集不能为基于深度学习的方法提供公平的评估标准。第三,在记录的图片模态和硬件方面,除了商用可见光 RGB 相机外,例如,CASIA-SURF 和 WMCA 通过融合 RGB/depth/NIR 信息,展示了 PAD 的有效性。然而,之前的综述大多集中在使用商用可见光相机的单一 RGB 模态上,而忽略了对多模态和专门系统的使用。

从评估协议的角度来看,传统的“域内测试”和“跨域测试”协议在之前的 FAS 综述中得到了广泛的研究。在实践中,由于 FAS 是一个开集 (open-set) 问题,因此应考虑训练和测试条件之间的不确定性差距 (例如环境和攻击类型)。然而,大多数 FAS 方法是在预定义的场景和 PA 上设计或训练 FAS 模型。因此,经过训练的模型很容易过拟合到几个特定的​​域和攻击类型上,而在其它域的泛化性能不好。为了缩小 FAS 在学术研究和实际应用之间的差距,这篇综述在四种 FAS 协议下,全面研究了基于深度学习的方法,包括具有挑战性的域泛化和开集 PAD。与现有综述相比,这项工作的主要贡献如下:

(1)这是第一篇全面且涵盖 (>100 种) 深度学习方法的综述论文,适用于单模态和多模态的 FAS。与之前仅考虑二分类损失监督方法的综述相比,作者还详细说明了具有辅助/生成像素级监督的方法。

(2)作者在 35 个公共数据集之间对现有 FAS 方法进行详细比较。

(3)这篇文章涵盖了深度学习在四种 FAS 协议上的最新进展,为读者提供了具有不同应用场景的最新方法。
(4)附录中的表格提供了对现有基于深度学习的 FAS 方法的全面比较结果,并作了简要总结和讨论。

2. 研究背景

作者将首先介绍常见的人脸欺骗攻击类型,然后研究现有的 FAS 数据集及其评估指标和协议。

2.1 人脸欺骗攻击

对自动人脸识别 (AFR) 系统的攻击通常分为两类:数字攻击和物理表示攻击。前者直接在数字域输入人脸图像上添加扰动,而后者通常则在物理世界中的真实人脸上添加对抗扰动。在这篇综述中,作者专注于物理人脸表示攻击的检测,其流程下图 (a) 所示。可以看出,集成 FAS 与 AFR 系统有两种方案:1)将 FAS 和 AFR 系统的预测分数并行融合。合并后的分数用于确定样本是否为真人;2)串行方案用于早期人脸 PAs 检测和 spoof rejection,从而避免欺骗人脸进入后续的人脸识别阶段。

下图 (b) 中是一些具有代表性的欺骗攻击类型。根据攻击者的意图,人脸 PA 可以分为两种典型情况:1) 冒充,即通过将真实用户的面部属性复制到照片、电子屏幕和 3D 面具等特殊媒介上来进行欺骗,从而将其识别为他人;2)混淆,这需要使用各种方法来隐藏或删除攻击者自己的身份,例如眼镜、化妆、假发等。

活体检测综述 Deep Learning for Face Anti-Spoofing: A Survey 阅读记录_第2张图片

基于攻击的几何属性,PA 可分为 2D 和 3D 攻击。通过使用照片或视频向传感器呈现人脸属性来进行 2D PA。打印照片、眼睛/嘴巴照片和视频回放是常见的 2D 攻击变体。随着 3D 打印技术的成熟,3D 面具已成为威胁 AFR 系统的新型 PA。与传统的 2D PA 相比,面具在颜色、纹理和几何结构方面更加逼真。3D 面具由不同的材料制成,例如,刚性面具可以由纸、树脂 (resin)、石膏 (plaster) 或塑料 (plastic) 制成,而柔性软面具通常由硅胶 (silicon) 或乳胶 (latex) 制成。

基于攻击的面部区域覆盖范围,PA 也可以分为整体或局部攻击。如上图 (b) 所示,与覆盖整个面部区域的常见 PA 相比,一些局部攻击仅针对特定面部区域,这些攻击将更难以检测。

2.2 FAS 数据集

大规模且具有多样性的数据集对基于深度学习的 FAS 方法来说至关重要。作者总结了流行的公共 FAS 数据集,如下图所示,

活体检测综述 Deep Learning for Face Anti-Spoofing: A Survey 阅读记录_第3张图片

此外,作者还可视化了上述数据集的部分样本,如下图所示,

活体检测综述 Deep Learning for Face Anti-Spoofing: A Survey 阅读记录_第4张图片

从数据集总结那张图片可以看到,大部分数据集仅包含了少量攻击类型,局限性很大。随后,数据集的发展有 3 种趋势:1)大规模,例如 CelebA-Spoof 和 HiFiMask 分别包含超过 600000 张图片和 50000 个视频,且数据集中大部分都是 PA;2)不同的数据分布,除了打印纸张和视频回放攻击外,越来越多的新型且复杂的攻击类型出现了。例如,SiW-M 包含了 13 种攻击类型,HiFiMask 则包含了 3 种由不同材料制成的 3D 面具 (透明、石膏、树脂);3)多模态、专用传感器,除了传统的可见光 RGB 相机外,近期提出的数据集包含了多模态的数据,例如,NIR、depth、Thermal、SWIR。以上提到的数据集在学术界和工业界上都促进了 FAS 的发展。

Thermal:热图像是指记录物体本身或向外辐射的热量或温度的图像。

SWIR:短波长红外线,是红外线的一种。有些波段范围的红外线可以用于热成像技术以感知温度,比如人的体温,有些具备其他特性。其中,0.9μm-2.5μm波段的光被称为短波长红外线SWIR。

2.3 评估指标

False Rejection Rate (FRR):ratio of incorrectly rejected bonafide score

False Acceptance Rate (FAR):ratio of incorrectly accepted PA

Half Total Error Rate (HTER):FRR 和 FAR 的均值

Equal Error Rate (EER):当 FAR 与 FRR 相等时的 HTER

Area Under the Curve (AUC):表示真人和假体之间的可分离程度

Attack Presentation Classification Error Rate (APCER):类似于 FRR

Bonafide Presentation Classification Error Rate (BPCER):类似于 FAR

Average Classification Error Rate (ACER):类似于 HTER

2.4 评估协议

为了评估深度 FAS 模型的判别性和泛化性,研究人员提出了不同的评估协议。作者总结了在 4 种具有代表性的评估协议下的深度 FAS 方法的发展,如下图所示,

活体检测综述 Deep Learning for Face Anti-Spoofing: A Survey 阅读记录_第5张图片

2.4.1 Intra-Dataset Intra-Type Protocol

Intra-dataset intra-type 协议已广泛用于大多数 FAS 数据集,以评估模型在具有轻微域偏移的场景下对 PA 的辨别能力。

2.4.2 Cross-Dataset Intra-Type Protocol

该协议侧重于对跨数据集的域泛化能力的评估,通常在一个或多个数据集 (源域) 上训练模型,然后在未知的数据集 (目标域) 上进行测试。

2.4.3 Intra-Dataset Cross-Type Protocol

该协议采用“排除一种攻击类型”来验证模型对未知攻击类型的泛化性,即一种攻击类型只出现在测试阶段。

2.4.4 Cross-Dataset Cross-Type Protocol

该协议衡量 FAS 模型对未知域和未知攻击类型的泛化能力。在该协议中,OULU-NPU 和 SiW (2D PA) 用于训练,而 HKBU-MAR 和 3DMask (3D PA) 用于测试。

3. 使用 RGB 相机的深度 FAS 模型

由于商用 RGB 相机广泛用于现实的应用场景 (例如,门禁系统和移动设备解锁),作者将回顾现有的基于商用 RGB 相机的 FAS 方法,其中里程碑式的 FAS 方法的发展如下图所示,

活体检测综述 Deep Learning for Face Anti-Spoofing: A Survey 阅读记录_第6张图片

3.1 混合方法

尽管深度学习和 CNN 在许多计算机视觉任务 (例如图像分类、语义分割和目标检测) 中取得了巨大成功,但受限于训练数据的数量和多样性,它们在 FAS 任务中存在过拟合问题。由于手工特征 (例如,LBP、HOG 描述符、图像质量、光流运动和 rPPG 线索) 已被证明可以区分真人和 PA,因此最近的一些混合方法将手工特征与深度特征相结合。

一些 FAS 方法首先从输入人脸图像中提取手工特征,然后将这些特征输入到 CNN 中。基于丰富的低级纹理特征,深度模型能够挖掘纹理感知的语义线索。为此,《Learning deep forest with multi-scale local binary pattern features for face anti-spoofing》采用多尺度颜色 LBP 特征作为局部纹理描述符,然后使用级联的随机森林进一步提取特征。类似地,《Robust face anti-spoofing using cnn with lbp and wld》提取 LBP 和 Weber 局部描述符编码的 CNN 特征,将它们结合起来以保留局部强度和边缘方向信息。然而,与原始人脸相比,基于局部描述符的特征丢失了像素级细节,从而限制了模型性能。另一方面,跨时间帧的动态特征 (例如,运动、光照变化、生理信号) 也是有效的 CNN 输入。《Integration of image quality and motion cues for face anti-spoofing: A neural network approach》建议从提取的基于密集光流的运动中训练多层感知机。此外,《Transrppg: Remote photoplethysmography transformer for 3d mask face presentation attack detection》从人脸视频中构建时空 rPPG 图,并使用 ViT 来捕获真实的周期性心跳活动特征。然而,头部运动和 rPPG 信号在视频回放攻击中很容易被模仿,使得这种动态线索不太可靠。基于视频回放攻击通常具有异常反射变化的事实,《3d face mask presentation attack detection based on intrinsic image analysis》提出使用带有反射图像强度差直方图输入的 1D CNN 来捕捉这种照明变化。

其他几种混合 FAS 方法从深度卷积特征中提取手工特征,它们遵循下图 (b) 中的混合框架。为了减少与 FAS 无关的冗余信息,《An original face anti-spoofing approach using partial convolutional neural network》利用 PCA 从预训练的 VGG-face 模型中过滤掉不相关的深度特征。除了基于 PCA 的降维,《Chif: Convoluted histogram image features for detecting silicone mask based face presentation attack》从浅层卷积特征中显式提取颜色 LBP 描述符,其中包含更丰富的低级统计信息。除了静态欺骗模式,一些方法从预训练好的深度模型中探索手工动态时间线索。《Cnn based spatio-temporal feature extraction for face anti-spoofing》和《Joint discriminative learning of deep dynamic textures for 3d mask face anti-spoofing》分别使用 LBP TOP 和光流法从序列卷积特征中提取深层动态纹理和运动特征。这种混合框架的一个限制是手工特征高度依赖于特定的卷积特征。
由于手工和深度卷积特征具有不同的属性,有些方法,如下图 (c),融合了这些特征以获得更通用的特征表示。为了做出更可靠的预测,《Score-level-based face anti-spoofing system using handcrafted and deep learned characteristics》提出融合来自手工 LBP 特征和 VGG16 模型预测的分数。然而,如何确定这两种特征的最佳得分权重是一项挑战。除了分数级融合,《Enhancing deep discriminative feature maps via perturbation for face presentation attack detection》和《Perturbing convolutional feature maps with histogram of oriented gradients for face liveness detection》提出利用 HOG 和 LBP 映射来扰动和调整低级卷积特征。尽管来自手工特征的局部先验知识增强了模型的判别能力,但整个模型仍存在语义表示退化的问题。在时间方法方面,为了利用真人和 PA 之间的动态差异,《Replayed video attack detection based on motion blur analysis》通过 1D CNN 提取强度变化特征,将其与运动放大人脸视频中的运动模糊特征融合,以检测视频回放攻击。

活体检测综述 Deep Learning for Face Anti-Spoofing: A Survey 阅读记录_第7张图片

总体而言,得益于手工特征,混合方法能够表示特定的非纹理线索 (例如,时间 rPPG 和运动模糊),而端到端的 FAS 模型则很难去捕获这些线索。但混合方法的缺点也很明显:1)手工特征高度依赖于先验知识且是不可学习的,一旦有足够的训练数据,提取手工特征将变得效率低下;2) 手工特征和深度特征之间可能存在特征差距或特征不兼容,这将导致模型性能饱和。

3.2 传统的深度学习方法

得益于 CNN 架构和正则化技术以及最近发布的大规模 FAS 数据集的发展,基于端到端深度学习的 FAS 方法越来越受到关注,并在 FAS 领域占据主导地位。与集成部分手工特征而没有可学习参数的混合方法不同,传统的基于深度学习的方法直接学习从人脸图像到欺骗检测的映射函数。传统的深度学习框架通常包括:1)具有二分类交叉熵损失的直接监督,如下图 (a) 所示;2)辅助任务或生成模型的逐像素监督,如下图 (b)、(c) 所示。

活体检测综述 Deep Learning for Face Anti-Spoofing: A Survey 阅读记录_第8张图片

3.2.1 二分类交叉熵损失

由于 FAS 可以直观视为 (真人与 PA) 二分类任务,因此许多端到端的深度学习方法直接使用二分类交叉熵损失和三元组损失进行监督。

一方面,研究人员提出了各种由二分类交叉熵损失监督的网络架构。《Learn convolutional neural network for face anti-spoofing》第一个提出了使用 8 层 CNN 进行特征表示的端到端 FAS 方法。然而,受限于数据集的规模和多样性,基于 CNN 的模型在 FAS 任务中很容易过拟合。为了缓解这个问题,《Transfer learning using convolutional neural networks for face anti-spoofing》、《Attention-based two-stream convolutional networks for face spoofing detection》、《On the effectiveness of vision transformers for zero-shot face anti-spoofing》微调了在 ImageNet 上预训练好的模型。对于移动端的 FAS 应用,《Deep models and shortwave infrared information to detect face presentation attacks》使用轻量级网络 MobileNetV2 进行高效的 FAS。上述通用骨干网络通常专注于高级语义特征表示而忽略低级特征。为了更好地利用 FAS 的多尺度特征,《Look locally infer globally: A generalizable face anti-spoofing approach》提出使用浅层全卷积网络以自监督的方式从人脸图像中学习局部判别线索。除了基于单帧的外观特征之外,《Face anti-spoofing: Model matters, so does data》、《Learning temporal features using lstm-cnn architecture for face anti-spoofing》、《Face anti-spoofing via sample learning based recurrent neural network (rnn)》、《Face anti-spoofing by the enhancement of temporal motion》 考虑了真人和 PA 之间的时间差异,并将基于多帧的 CNN 特征与 LSTM 级联用于稳健地传播动态线索。

另一方面,考虑到二分类交叉熵损失的弱类内和类间约束,一些方法开始对损失函数进行修改,为 CNN 提供更具辨别力的监督信号。《On improving temporal consistency for online face liveness detection》将 FAS 定义为细粒度分类问题,不同的攻击类型标签用于多类监督。通过这种方式,可以学习 PA 的特定属性 (例如材料)。然而,用多分类交叉熵损失监督的 FAS 模型仍然存在混淆的真人/假体分布。例如,高保真 PA 的外观线索与相应的真人外观线索相似。一方面,为了学习一个类内距离小但类间距离大的紧凑空间,《Face liveness detection based on client identity using siamese network》和《Detecting face presentation attacks in mobile devices with a patch-based cnn and a sensor-aware loss function》分别介绍了对比损失和三元组损失。然而,与视觉检索任务不同,FAS 任务中的真人和 PAs 通常具有不对称的内部分布 (真人分布紧凑,假体分布则多样化)。基于这一发现,《Unified unsupervised and semi-supervised domain adaptation network for cross-scenario face anti-spoofing》提出通过带有不对称的角边距的 softmax 损失来监督 patch 模型,以放宽 PA 之间的类内约束。另一方面,为了给难例样本提供更自信的预测,《Camera invariant feature learning for generalized face anti-spoofing》采用二分类 focal loss 来引导模型扩大真人与假体样本之间的边距,实现对难例样本的准确预测。

3.2.2 像素级监督

由二分类损失直接监督的深度模型很可能会学歪 (例如,把屏幕边框视为区分真假人脸的依据)。 相比之下,逐像素监督可以提供更细粒度和上下文任务相关的线索,更好地学习内在特征。一方面,基于物理线索和判别式设计理念,辅助监督信号,如 pseudo depth labels、binary mask label 和 reflection maps 是为局部真人/欺骗线索描述符而开发的。

Pixel-wise supervision with Auxiliary Task. 根据对 FAS 的先验知识,大多数 PA 没有脸部深度信息,这可以用作判别监督信号。因此,最近提出的一些方法采用像素级 pseudo depth labels 来指导深度模型,强制它们为真人样本预测真实深度,为假体预测 zero maps。《Face anti-spoofing using patch and depth-based cnns》首先利用 pseudo depth labels 来引导多尺度的 DepthNet。因此,DepthNet 能够为输入样本预测整体深度图,并将它作为决策依据。为了进一步提高细粒度内在特征的表示能力,《Searching central difference convolutional networks for face anti-spoofing》用中心差分卷积 (CDC) 替换 DepthNet 中的普通卷积,形成 CDCN 架构,如下图所示。在静态架构方面,DepthNet 和 CDCN 因其紧凑性和出色的性能而被深度 FAS 广泛使用。许多变体《Nas-fas: Static-dynamic central difference network search for face antispoofing》、《Dual-cross central difference network for face anti-spoofing》、《Dual spoof disentanglement generation for face anti-spoofing with depth uncertainty learning》都是基于 DepthNet/CDCN 构建的。至于时间架构,FAS-SGTD 《Deep spatial gradient and temporal depth learning for face anti-spoofing》能出色估计长短期微运动并准确预测脸部深度,FAS-SGTD 的详细架构如下图所示。

活体检测综述 Deep Learning for Face Anti-Spoofing: A Survey 阅读记录_第9张图片

活体检测综述 Deep Learning for Face Anti-Spoofing: A Survey 阅读记录_第10张图片

为每个训练样本生成 3D 形状标签的成本高且不够准确,并且对具有深度的 PA (例如 3D 面具、头模) 也不够合理。相比之下,binary mask label 更容易生成并且更适用于所有 PA。具体来说,为每个空间位置的特征提供二分类监督。通过 binary mask label,可以发现 PA 是否出现在相应的 patch 中,这与攻击类型无关且在空间上可解释的。《Deep pixel-wise binary supervision for face presentation attack detection》首次引入像素级 binary mask label 来预测最终分数。在足够的像素级监督下,骨干网络 DenseNet121 可以很好地收敛。由于细微的欺骗线索通常存在于不同的空间区域中,普通像素级的二分类监督在处理所有 patch 时都使用相同的权重,这可能导致模型学到有偏差的特征表示。为了解决这个问题,《A-deeppixbis: Attentional angular margin for face anti-spoofing》提出在计算像素级二分类监督损失之前添加一个可学习的注意力模块,该模块用于细化特征,这有利于前传显著信息。尽管优势明显,但当前的 binary mask label 通常假设脸部区域中的所有像素具有相同的真/假分布,因此分别为真人和 PA 生成全 1 图 / 全 0 图。然而,当遇到局部攻击 (例如,FunnyEye) 时,binary mask label 则不太准确且引入了噪声。 

除了主流的 pseudo depth labels 和 binary mask label 外,还有几种含丰富信息的辅助监督,如 pseudo reflection map、3D point cloud map、ternary map、Fourier spectra。《Basn: Enriching feature representation using bipartite auxiliary supervisions for face antispoofing》根据真人皮肤和假体介质之间的脸部相关反照率的差异,提出同时使用 depth 和 reflection 标签监督的深度模型。此外,为了进一步增强模型的泛化能力,《Face anti-spoofing with human material perception》引入了 binary mask maps,以同时使用这三个像素级监督训练双边卷积网络。与考虑所有空间位置的 binary mask label 不同,《Face spoofing detection based on local ternary label supervision in fully convolutional networks》删除与脸部无关部分的标签,将整个脸部区域作为一个精炼的 binary mask label,这消除了脸部区域外的噪声,有利于挖掘人脸欺骗线索。基于真人和 PA 在丰富的纹理和几何之间的差异,在 Fourier map、LBP texture map、sparse 3D point cloud map 监督下的深度模型也表现出了出色的特征表示能力。

总的来说,像素级的辅助监督有利于学习可解释的真假人脸特征 (例如,reflection supervisions for material representation,depth supervisions for geometry representation)。此外,在多任务学习框架中,泛化能力强的 FAS 模型能够同时被互补的辅助监督信息监督。然而,像素级辅助监督有如下两个缺陷:1)像素级监督通常依赖于高质量 (例如,高分辨率) 的训练数据来挖掘细粒度的欺骗线索,当训练数据噪声过大且图像质量较低时,很难提供有效的监督信号;2)伪辅助标签要么是人工设计的,要么是由其他现成算法生成的,这些生成的标签并不总是可靠的。

Pixel-wise Supervision with Generative Model. 尽管利用了像素级辅助信息来训练模型,但仍然难以理解深度学习模型 (黑匣子) 是否学习了人脸的内在特征。近期,FAS 的一个热门研究趋势是挖掘假体样本中存在的视觉欺骗模式,目的是对样本的欺骗性提供更直观的解释。考虑到像素级辅助监督有很强的物理约束,一些方法放宽了这种显示的监督信号,为挖掘隐形的欺骗线索提供了更大的空间。《Face de-spoofing: Anti-spoofing via noise modeling》将FAS重新定义为欺骗噪声建模问题,设计一个编码器-解码器的网络结构,利用放宽的像素级辅助监督来估计底层的欺骗模式 (例如,真人脸的欺骗噪声为全 0 图)。有了这种对真人样本的单边约束,模型能够更灵活地挖掘欺骗线索。类似地,《Learning generalized spoof cues for face anti-spoofing》设计了一个欺骗线索生成器,最小化真人样本的欺骗线索,同时没有显示约束假体样本的欺骗线索。与以上对真人样本施加严格约束的方法不同,《Improving cross-dataset performance of face presentation attack detection systems using face recognition datasets》使用从真人脸数据中预训练好的自动编码器计算出的重构误差映射来进行活体检测。由于该误差映射是由重构的人脸的残差噪声生成的,没有人为定义的元素,因此在域偏移下模型仍具有鲁棒性。然而,低质量的自编码器重构的人脸可能生成含噪声的残差误差映射。

除了直接利用 spoof pattern generation,《Meta-teacher for face anti-spoofing》提出了通过 meta-teacher 框架来自动生成了像素级标签,该方法够为学生模型提供更好的监督,以充分学习内在的欺骗线索。但是,该方法只生成了可学习的假体监督标签。因此,如何为真人和假体样本自动生成最优的像素级监督信号仍然是值得研究的问题。

总的来说,pixel-wise supervision with generative model 放宽了监督信号的约束,让解码器去生成更真实/自然的欺骗线索。因此,预测的欺骗模式是强数据驱动的,并具有可解释的视图。然而,这种放宽约束的监督信号很容易使模型陷入局部最优解和过拟合。将显示辅助监督与基于生成模型的监督相结合来进行联合训练,可以缓解这一问题。

3.3 生成式的深度学习方法

传统的端到端深度学习算法可能在未知域和未知攻击类型上的泛化性能不佳。因此,这些方法在安全性要求较高的实际应用中并不可靠。鉴于此,越来越多的研究人员关注如何提升深度 FAS 模型的泛化能力。一方面,利用域自适应和泛化技术在域变化的情况下实现鲁棒的图像分类。另一方面,利用零/少样本学习和异常检测框架对未知 PA 类型进行检测。在这篇综述中,未知域表示与欺骗无关的外部变化 (例如,光照和传感器噪声),但实际上会影响外观质量。相比之下,未知攻击类型通常是指具有固有物理属性的新攻击类型,而这些物理属性在训练阶段没有出现过。

3.3.1 对未知域的泛化

在源域上训练模型,当源域和目标域间存在严重的域偏移时,在目标域上的性能往往不佳。域自适应技术利用目标域的数据来弥补模型在源域和目标域之间的性能差距。相比之下,域泛化可以帮助 FAS 模型直接从多个源域学习通用的特征表示,而不需要使用目标域中的数据,这对于实际部署来说更加实用。域自适应和域泛化的区别如下图所示,

活体检测综述 Deep Learning for Face Anti-Spoofing: A Survey 阅读记录_第11张图片

Domain Adaptation. 域自适应技术减小了源域和目标域之间的差异。源域上的特征和目标域上的特征的分布通常在可学习的特征空间中匹配。如果这两个域的特征有相似的分布,那么在源域上训练的分类器,在目标域上分类时也有不错的效果。

为了对齐源域和目标域数据之间的特征空间,《Unsupervised domain adaptation for face anti-spoofing》提出了无监督域自适应来学习映射函数,通过最小化源-目标嵌入子空间的最大平均差异 (MMD) 来对齐特征空间。为了进一步提升这两个域之间的泛化性,《Improving crossdatabase
face presentation attack detection via adversarial domain adaptation》、《Unsupervised adversarial domain adaptation for crossdomain face presentation attack detection》提出了使用无监督对抗域自适应的 UDA-Net,来联合优化源域和目标域的编码器。当特征无法从两个域中区分时,就需要学习域感知的公共特征空间。由于目标域内的标签信息不可用,通过 MMD 和对抗域适应约束的域不变特征仍然具有较弱的判别力。为了缓解这一问题,《Unified unsupervised and
semi-supervised domain adaptation network for cross-scenario face anti-spoofing》、《Progressive transfer learning for face anti-spoofing》将半监督学习引入到域自适应中,在目标域中可以利用少量的带标签数据和大量的无标签数据。前者提出了一种统一的无监督和半监督域适应网络来学习域不变特征,并发现利用少量带标签的目标域数据 (3 到 5 个) 可以显著提高目标域上的性能。类似地,后者提出了一种半监督学习方法,只使用少量带标签的训练数据进行预训练,并在训练过程中逐步采用可靠的无标签数据来减少域差距。尽管具有良好的适应性,但这种半监督方法严重依赖类平衡的少样本标签数据,当带标签的假体样本不可用时,模型性能会明显下降。

与上述方法仅对最终分类器进行适配不同,目前已有一些方法去适配整个 FAS 网络。由于不同深度的特征有不同的域信息,《Face anti-spoofing based on multi-layer domain adaptation》提出了在表示层和分类层上使用 MMD 损失来进行多层分布自适应。尽管通过多层次线索进行了有效的适应,但架构本身可能是多余的,导致泛化能力有限。为了得到更通用的架构,《Domain adaptation for generalization of face presentation attack detection in mobile settengs with minimal information》提出修剪特征发散性高、不能很好地从一个数据集泛化到另一个数据集的卷积,从而提高网络在目标域中的性能。不同于对特定的卷积/层进行网络剪枝,《Face anti-spoofing with deep neural network distillation》提出利用教师模型对特定的域蒸馏整个 FAS 模型,该模型通过特征 MMD 和来自两个域的成对相似 embedding 进行正则化。这样可以挖掘出轻量级的通用 FAS 模型,但与教师网络相比,学生模型的判别力较弱。

虽然域适应通过利用目标域中的无标签数据,可以缩小两个域之间的分布差异,但在实际应用中,为了训练模型而去收集大量目标域的无标签数据的成本高 (特别是 PA)。此外,考虑到隐私保护问题,在目标域上部署 FAS 模型时,通常无法使用源域的人脸数据。

Domain Generalization. 域泛化假设在多个源域和未知但相关的目标域之间存在一个通用的特征空间。在此基础上,从源域学习到的模型可以很好地泛化到目标域上。

一方面,一些方法采用域感知对抗约束来学习具有判别性且域无关的特征。《Multi-adversarial discriminative deep domain generalization for face presentation attack detection》首次提出通过多对抗判别域泛化框架学习多个源域共享的通用特征空间。然而,该方法有两个缺陷:1)这些域无关的特征可能仍然包含与欺骗无关的线索 (例如传感器的噪声);2)域通用特征的判别性仍不理想。为了改善第一个缺陷,《Cross-domain face presentation attack detection via multi-domain disentangled representation learning》提出将通用 FAS 特征从主体辨别特征和域依赖特征中分离出来。对于第二个缺陷,考虑到不同域的欺骗人脸之间存在较大的分布差异,《Single-side domain generalization for face anti-spoofing》提出学习一个判别的通用特征空间,其中真人脸的特征分布紧凑,而 pa 的特征分布则分散在域之间,但在每个域内都是紧凑的。

另一方面,一些具有代表性的方法利用域感知元学习来学习通用特征空间。具体来说,来自部分源域的人脸被用作查询集,而来自剩余非重叠域的人脸作为支持集。基于这种设置,《Regularized fine-grained meta face anti-spoofing》提出通过在细粒度域感知元学习过程中找到通用学习方向来规范化 FAS 模型。然而,这种域感知元学习需要源域的标签来构建查询和支持集,但域标签在实际应用中并不总是可用的。在不使用域标签的情况下,《Generalizable representation learning for mixture domain face anti-spoofing》提出使用域动态调整元学习来训练通用 FAS 模型,该模型迭代地将混合域划分为具有伪域标签的集群。然而,欺骗判别特征和域感知特征被一个简单的通道注意模块解耦,使得伪域标签分配不可靠。从特征归一化的角度来看,鉴于 instance normalization 可有效消除域差异,《Adaptive normalized representation learning for generalizable face anti-spoofing》提出通过元学习自适应地聚合 batch normalizationinstance normalization 以学习通用特征表示。值得注意的是,batch normalization 和 instance normalization 之间的自适应权衡可能会弱化模型对真人/假体的判别力。

总的来说,FAS 的域泛化是近三年来的一个新热点,例如将域泛化与域自适应相结合的《Self-domain adaptation for face anti-spoofing》。然而,域泛化有利于提升 FAS 模型在未知域中的性能,但还不清楚它是否会降低模型在源域场景下的假体检测能力。

3.3.2 泛化到未知攻击类型

除了域偏移问题外,FAS 模型还容易受到实际应用中新型 PA 的影响。大多数之前的深度学习方法将 FAS 定义为一个封闭集问题,以检测各种预定义的 PA,这些 PA 需要大规模的训练数据来覆盖尽可能多的攻击类型。然而,经过训练的模型很容易过拟合到几种常见的攻击 (例如,打印和视频重放),并且仍然容易受到未知攻击类型的攻击。最近,许多研究集中在开发用于未知欺骗攻击检测的通用 FAS 模型上。一方面,零/少样本学习用于改进活体检测。另一方面,FAS 也可以被视为 one-class 分类任务,其中真人样本紧凑地聚集在一起,异常检测则用于检测 PA 样本。

Zero/Few-Shot Learning. 新攻击类型检测的一种直接方法是使用足够的新攻击样本微调 FAS 模型。然而,为每次新攻击收集数据的成本高且费时。为了克服这一挑战,一些方法提出将 FAS 视为开放集零样本和少样本学习问题。零样本学习旨在从预定义的 PA 中学习通用特征,以检测未知的新型 PA少样本学习旨在通过从预定义的 PA 和收集的极少数新攻击样本中学习,使 FAS 模型快速适应新攻击类型

Learning meta model for zero-and few-shot face anti-spoofing》通过融合训练具有自适应内部更新学习率策略的元学习器,将零样本和少样本 FAS 任务统一在一起。在零样本和少样本任务上训练元学习器同时提升了 FAS 模型对预定义 PA 和新 PA 的判别和泛化能力。然而,直接对新攻击类型进行少样本元学习很容易遗忘先前的 PA。为了解决这个问题,《Learning to learn face-pad: a lifelong learning approach》提出了一种连续的少样本学习范式,它从连续的数据流中逐步扩展获得的知识,并通过少量训练样本检测新的 PA。

尽管少样本学习有利于 FAS 模型检测未知攻击类型,但当模型无法适应目标攻击类型时,模型性能会明显下降。作者观察到,分类错误通常发生在具有挑战性的攻击类型 (例如,透明面具、有趣的眼睛和化妆) 上,这些攻击类型与真人脸的外观分布很相似。

Anomaly Detection. 基于异常检测的 FAS 方法假设真人为正常样本,因为真人共享相似且紧凑的特征表示,而假体样本则因为攻击类型和材料之间的巨大差异,导致这些样本在异常样本空间中有巨大的分布差异。基于以上假设,异常检测首先通常训练一个 one-class 分类器来准确地对真人样本进行聚类。然后,在真人样本集群边缘之外的任何样本 (例如,未知攻击) 都将被分为异常/攻击样本。

An anomaly detection approach to face spoofing detection: A new formulation and evaluation protocol》首先在跨攻击类型的测试协议下对 one-class 异常检测以及传统的二分类 FAS 方法进行评估。他们发现基于异常检测的方法使用 one-class SVM时的性能与使用 two-class SVM 的二分类方法相比并不逊色。为了更好地表示真人样本的概率分布,《On effectiveness of anomaly detection approaches against unseen presentation attacks in face anti-spoofing》提出将传统的 one-class SVM 替换为高斯混合模型 Gaussian Mixture Model (GMM) 作为异常检测器。除了 one-class SVM 和 GMM 外,《Unknown presentation attack detection with face rgb images》考虑使用基于自编码器的异常检测器 (with LBP feature extractor) 来检测开集的未知 PAD。上述方法将特征提取与 one-class 分类器分离,使得真人表示学习具有挑战性和次优性。相比之下,《Anomaly detectionbased unknown face presentation attack detection》提出了一种端到端的异常检测方法,将 one-class 分类器和特征表示一起训练。此外,为了学习鲁棒的真人特征表示,他们生成伪负特征来模拟 PA,并迫使 one-class 分类器对PAD 具有判别性。但是,生成的伪 PA 特征不能代表现实中的 PA 特征,这降低了 one-class 异常检测系统在实际部署时的可靠性。

虽然只使用真人样本训练分类器是合理的,但这往往限制了异常检测模型对新 PA 类型的泛化性。有些方法不仅只使用真人样本,而是通过度量学习同时使用真假样本来训练通用的异常检测系统。《Deep anomaly detection for generalized face antispoofing》提出通过 triplet focal loss 对FAS模型进行正则化,学习判别特征表示,然后引入少量后验概率估计作为异常检测器,用于检测未知 PA。类似地,《Learning one class representations for face presentation attack detection using multi-channel convolutional neural networks》设计了一种成对的 one-class 对比损失(one-class contrastive loss,OCCL),在远离攻击表示的情况下,迫使网络学习针对真人样本的紧凑表示。然后级联 one-class GMM 检测未知 PA。虽然可以通过三元组或对比损失学习判别的特征表示,但以上两种方法在模型输出的特征后面仍需要级联额外的异常检测器 (例如,one-class GMM),这影响了端到端表示学习。相比之下,《Unseen face presentation attack detection with hypersphere loss》提出使用超球面 (hypersphere) 损失来监督 FAS 模型,保持类内的真人样本的紧性并与类间的真假样本互相分离。在学习到的特征空间上可以直接检测到未知 PA,不需要额外的异常检测分类器。该方法的局限性是预测的真假样本分数是根据 embedding 特征的 l2 范数的平方计算的,很难选择一个合适的阈值来检测不同类型的 PA。

尽管基于异常检测的 FAS 方法在未知攻击检测方面具有不错的泛化能力,但在实际的开放集场景下,与传统的 FAS 分类方法相比,基于异常检测的 FAS 方法存在判别力下降的问题。

4. 带有先进传感器的深度 FAS

在日常人脸识别应用中,基于商用 RGB 相机的 FAS 是一个很好的折中解决方案。然而,一些对安全性要求高的场景要求非常低的错误接受率。最近,专业人士开发出了各种模式的先进传感器,提升了 FAS 的性能。FAS 的各种传感器和硬件模块在环境条件 (光照和距离) 和攻击类型 (打印、回放和3D掩模) 方面的优缺点如下图所示,

活体检测综述 Deep Learning for Face Anti-Spoofing: A Survey 阅读记录_第12张图片

与单目可见的 RGB 相机相比,立体相机 (可见光,VIS-Stereo) 《Slnet: Stereo face liveness detection via dynamic disparity-maps and convolutional neural network》有利于重构三维几何信息,用于 2D 活体检测。当在样本面上装配动态闪光灯时,VIS-Flash 《Aurora guard: Realtime face anti-spoofing via light reflection》能够捕捉基于内在反射的材料线索,可以检测所有攻击类型。

除了可见的 RGB 模态信息,深度和 NIR 模态数据也常用于实际 FAS 部署中。深度信息传感器包含 Time of Flight (TOF) 《A review of face anti-spoofing and its applications in china》和 3D Structured Light (SL) 《Fake iris detection using structured light》,这两种传感器已部署到 Iphone、三星、OPPO、华为等手机中。它们为 2D 活体检测提供了脸部的精确 3D 深度分布。与 SL 相比,TOF 对光照和距离等环境条件的适应性更强。相比之下,NIR 《Context based face spoofing detection using active near-infrared images》模态是 VIS 之外的一种互补光谱 (900 ~ 1800nm),有效利用了真假人脸之间的反射差异,但在远距离成像质量较差。此外,VIS-NIR 融合的硬件模块对许多门禁系统具有较高的性价比。

与此同时,FAS 领域引入了一些小众但有效的传感器。短波红外 (SWIR) 《Deep models and shortwave infrared information to detect face presentation attacks》具有 940nm 和 1450nm 波段的波长,是一种可靠的通用活体检测方法。热成像相机 (Thermal camera) 《Face liveness detection using thermal face-cnn with external knowledge》是一种通过脸部温度估计实现高效 FAS 的传感器。然而,当测试者戴上透明口罩时,FAS 系统就容易被攻破。造价贵的光场相机 (Light Field camera) 《Light field-based face liveness detection with convolutional neural networks》和四向偏振传感器 (four-directional Polarization sensor) 《Face anti-spoofing by learning polarization cues in a real-world scenario》也分别因其对脸部深度和反射/折射光的出色表征而被用于 FAS。

4.1 基于单模态数据的 FAS

基于特定的传感器,研究人员开发了传感器感知的高效深度 FAS。《Face liveness detection using thermal face-cnn with external knowledge》提出了一种轻量级的Thermal Face-CNN 来从热图像中估计脸部温度,并检测异常温度的 PA 。作者发现热图像比 RGB 图像更适合用于视频回放的 PA。然而,这种基于热图像的方法容易受到透明 mask 的攻击。《Deep models and shortwave infrared information to detect face presentation attacks》提出使用多通道 CNN 从选定的 SWIR 差异输入中提取与材料相关的深度特征,这几乎能够检测所有类型的 PA,同时保证较低的错误拒绝率。

4.2 基于多模态数据的 FAS

Multi-Modal Fusion. 借助多模态信息,FAS 方法可以使用特征级融合策略来提取互补的多模态特征。由于多模态特征之间存在冗余信息,直接拼接特征容易导致特征维度过高和模型过拟合。为了缓解这一问题,《Casia-surf: A large-scale multi-modal benchmark for face anti-spoofing》提出 SD-Net,该网络使用一种特征重加权机制,在 RGB、深度和 NIR 模态之间选择有信息的通道,丢弃含冗余的通道。然而,SD-Net 的重加权机制只对高阶特征进行了加权融合,而忽略了多模态低阶线索。为了进一步促进不同层次上的多模态特征交互,《Recognizing multi-modal face spoofing with face recognition networks》和《Multi-modal multi-layer fusion network with average binary center loss for face anti-spoofing》引入了一个多模态多层融合分支 (multi-modal multi-layer fusion branch),增强了模态之间的上下文线索。尽管有先进的融合策略,但多模态融合很容易被部分模态 (例如深度模态) 主导,因此当这些模态有噪声或缺失时,表现就会变得很差。为了解决这个问题,《Facebagnet: Bag-of-local-features model for multi-modal face anti-spoofing》设计了一种模态特征擦除操作,随机删除部分模态特征,防止过拟合。此外,《Cross modal focal loss for rgbd face anti-spoofing》提出了一种跨模态 focal loss 来调节每个模态的损失贡献,这有利于模型学习模态之间的互补信息。总的来说,特征级融合对聚合多模态线索是有效的。然而,模态特征通常从独立的分支中提取,计算成本高。

除了特征级融合以外,一些方法还考虑了对输入融合和对决策融合。输入级融合假设多模态输入已经在空间上对齐,并且可以直接在通道维度上进行融合。《Domain adaptation in multi-channel autoencoder based features for robust face antispoofing》拼接归一化的灰度、深度和 NIR 图像,然后再送入 PA 检测器中。类似地,《Data fusion based two-stage cascade framework for multi-modality face anti-spoofing》通过不同的融合算子 (即拼接、求和和差分) 合成 VIS-NIR 输入。这些输入级融合方法是高效的,并且仅增加了一点计算成本。然而,过早的融合很容易在随后的中高层空间中丢失多模态线索。相反,为了平衡单个模态偏差并做出可靠的二分类决策,一些方法对每个模态分支预测的分数进行决策级融合。《Multimodal face anti-spoofing based on central difference networks》直接对来自 RGB、深度和 NIR 分支的预测分数求均值,这在 CeFA 数据集上优于输入和特征级融合。尽管预测的结果可靠,但决策级融合效率低下,因为它需要针对特定模态的数据单独对模型进行训练。

Cross-Modal Translation. 为了从 RGB 人脸图像生成相应的 NIR 图像,《Face anti-spoofing with generated near-infrared images》首先提出了一种新颖的多类别 (live/spoof, genuine/synthetic) 图像翻译 cycle-GAN。基于生成的 NIR 和原始 RGB 输入,与仅使用 RGB 图像相比,该方法能够提取更鲁棒的融合特征。然而,原始 cycle-GAN 生成的 NIR 图像质量低,这限制了融合特征的性能。为了生成高保真的 NIR,《Face anti-spoofing via adversarial cross-modality translation》在跨模态翻译框架中设计了一种新颖的基于子空间的模态正则化方法。尽管对数据集内的测试有效,但这些方法面临的主要问题是域偏移和未知攻击可能会显著影响生成模态的质量,并且使用成对的噪声模态数据融合的特征将不可靠。

5. 讨论和未来研究方向

由于深度学习的快速发展,FAS 在过去几年中取得了快速的进步。从下图可以看出,最近的深度 FAS 方法刷新了性能指标,并分别在四种评估协议上都有不俗的表现。一方面,先进的架构和像素级监督有利于 2D 攻击检测。另一方面,基于域和攻击泛化的方法挖掘跨多个源域和攻击类型的内在线索,即使在未知域和未知攻击上也可以很好地泛化。大规模预训练模型的迁移学习缓解了有限规模的数据引起的过拟合问题,从而提高了泛化能力,并有利于跨数据集和跨攻击类型的测试。

活体检测综述 Deep Learning for Face Anti-Spoofing: A Survey 阅读记录_第13张图片

然而,由于快速迭代的新型攻击等挑战,FAS 仍然是一个未解决的问题。作者将当前发展的局限性作了总结:1)有限的特征表示能力,以及次优的深度架构、监督和学习策略。学习判别性和通用特征对于深度 FAS 至关重要。直到现在,仍然很难找到最适合的架构以及跨所有不同评估标准的监督。例如,具有逐像素监督的 CDCN 在数据集内和多源域跨数据集测试上的性能差异较大。 2) 在不符合实际的测试标准和协议下进行模型评估。由于只考虑了有限种类的攻击类型,因此跨域测试与在实际场景中测试仍然相差巨大。3) 仅将注意力放在 physical attacks 上。除了这种物理攻击,还应考虑在更一般的应用程序中进行欺骗,例如数字攻击。4)对可解释性和隐私问题的考虑不足。大多数现有的 FAS 方法致力于超过 SOTA 算法,但很少考虑其背后的可解释性。这种黑匣子在实际中很难做出可靠的决定。此外,大多数现有的方法忽略了隐私和生物识别敏感性问题。

5.1 架构、监督和可解释性

从第 3 节和第 4 节可以看出,大多数研究人员为深度 FAS 选择了现成的网络架构以及监督信号,这可能不是最优的,并且难以充分利用大规模训练数据。尽管最近的几种方法应用 AutoML 来搜索合适的架构、损失函数和辅助监督,但它们仅专注于单模态和单帧配置。此外,在动态监督设计中应考虑丰富的时间上下文信息,而不是静态的逐像素监督。另一方面,设计高效的网络架构有利于 FAS 在实际应用中的部署。在过去的几年中,大多数研究都集中在解决 FAS 中的准确性和泛化性问题,而只有少数研究考虑轻量级的网络或知识蒸馏来进行高效部署。除了 CNN 之外,研究人员还应该在效率和计算成本方面重新考虑使用一些灵活的架构。所有这些试验都有助于研究人员了解和定位欺骗模式。然而,由于缺乏像素级注释,容易受到不准确注释的影响。

5.2 表示学习

FAS 方法性能好的关键是学习判别性和内在特征表示。之前少数的研究已经证明了迁移学习和解耦学习对 FAS 的有效性。前者利用来自其他大规模数据集的预训练语义特征来缓解过拟合风险,而后者旨在从带有噪声的表示中解耦内在的欺骗线索。为了学习在真人脸之间具有紧凑分布和在真假人脸之间具有可区分距离的判别嵌入空间,可以使用深度度量学习来训练 FAS 模型。此外,将 FAS 重新定义为细粒度识别问题也是值得探索的。

研究人员还应该充分利用带有或不带有标签的训练数据来增强特征表示。一方面,对大规模组合数据集进行自监督可能会降低过拟合风险,并积极挖掘内在知识。另一方面,在实际场景中,每天从各种人脸识别终端连续收集未标记的人脸数据,可用于半监督学习。一个挑战是如何充分利用未标记的不平衡 (即真人≫假体) 数据。此外,很少研究人员去研究适用于 FAS 的数据增强策略。在不同的域中,对抗学习可能是自适应数据增强的一个不错的实现方法。

5.3 开集 (Open-Set) FAS

传统的 FAS 评估协议通常会在一个或多个小规模数据集中考虑域内、跨域和跨攻击类型测试。在这些协议中评估性能最好的方法仍然无法在实际场景中始终保持良好的性能,原因如下:1)数据量相对较小,因此在小数据集上的高性能不是很有说服力;2)协议关注的因素太过单一 (例如,已知/未知域或已知/未知的攻击类型),不能满足实际场景的需求。最近,研究人员提出了更实用的评估协议,例如 GrandTest 《Learning to learn face-pad: a lifelong learning approach》和 open-set 《Physics-guided spoof trace disentanglement for generic face anti-spoofing》、《Contrastive context-aware learning for 3d high-fidelity mask face presentation attack detection》。 GrandTest 包含大规模混合域数据,而 open-set 测试则考虑模型对已知和未知攻击类型的区分和泛化能力。未来应该同时考虑 GrandTest 和 open-set,对 FAS 方法进行全面且公正的评估。

对于多模态协议,假设多模态的训练数据可用,有两种测试设置被广泛使用:1)具有相应的多模态; 2)只有单一的模态 (通常是 RGB)。然而,根据不同的用户终端设备,在实际部署中存在各种模态组合 (例如,RGB-NIR、RGB-D、NIRD 和 RGB-D-NIR)。因此,为每个多模态组合训练单独模型的效率低下。尽管可以通过跨模态转换生成伪模态,但与来自实际传感器的模态数据相比,它们的保真度和稳定性仍然不高。设计一个动态多模态框架将学习到的多模态知识传播到各种模态组合中也是未来值得研究的一个方向。

5.4 通用且统一的 PAD

除了常见的 PA 之外,对于通用 PAD,还应考虑两种物理对抗攻击 (AFR 感知和 FAS 感知)。如下图所示,从生成对抗网络获得的眼镜和帽子,或者特殊贴纸,这些贴纸可以打印出来并由攻击者佩戴。此外,眼睛区域附近的化妆已被用于攻击商业 AFR 系统。因此,建立具有多种物理对抗攻击的大规模 FAS 数据集是必要的。

活体检测综述 Deep Learning for Face Anti-Spoofing: A Survey 阅读记录_第14张图片

另一方面,除了物理人脸 PA 之外,还有许多针对人脸视频的数字攻击和变形攻击。随着生成模型的发展,这些来自生成模型的数字攻击的威胁更大。尽管不同的生成方式具有不同的攻击质量,但这些攻击中的一部分可能仍然具有连贯的属性。《Unified detection of digital and physical face attacks》提出了一个统一的数字和物理人脸攻击检测框架来学习连贯攻击的联合表示。但是,由于数据收集成本不同,数字攻击类型和物理攻击类型之间存在严重的数量不平衡问题。换句话说,与高成本的物理攻击相比,大规模数字攻击更容易产生。这种不平衡的分布可能不利于多任务学习过程中的特征表示学习,这是未来需要考虑的。

5.5 隐私保护训练 (Privacy-Preserved Training)

利用大规模的人脸数据,基于深度学习的 FAS 取得了巨大突破。然而,人脸数据的隐私问题越来越受到关注。例如,2018 年 5 月生效的 GDPR (通用数据保护条例,General Data Protection Regulation) 将保护个人信息 (例如人脸图像) 隐私权。因此,一个值得研究的方向是缓解隐私问题,同时保持 FAS 模型的性能。

一方面,真假人脸训练数据通常不会在数据持有者之间直接共享。为了应对这一挑战,联邦学习 (federate learning) 《Communication-efficient learning of deep networks from decentralized data》是一种分布式和保护隐私的机器学习技术,能够同时利用不同数据持有者提供的丰富的信息,保持隐私数据。具体来说,不同数据的不同持有者都在本地训练自己的 FAS 模型。然后,服务器通过迭代聚合所有来自数据中心的模型,来学习全局 FAS 模型,而无需访问每个原始隐私数据。最后,融合的全局 FAS 模型将用于推理。为了增强模型的泛化能力,《Federated test-time adaptive face presentation attack detection with dual-phase privacy preservation》引入了联邦域解耦策略,将每个原始数据视为一个域,并将 FAS 模型分解为域不变部分和域特定部分。总的来说,现有的基于联邦学习的 FAS 模型通常侧重于保护数据集的隐私性,而忽略了模型层面的隐私问题。因此,全局模型的训练需要多个团队共享自己在本地训练好的模型,这不利于商业之间的竞争。
另一方面,由于人脸的隐私和安全问题,源数据在实际部署的过程中通常是不可用的。具体来说,在 source-free 《Universal source-free domain adaptation》设置中,FAS 模型首先在源数据上进行预训练,然后再进行部署。在部署阶段,无法使用源数据以使预训练模型适应目标数据,因为它们包含敏感的个人信息。如何在不使用源数据的情况下高效、准确地调整在预训练阶段学到的特征表示也非常值得研究。

6. 结论

这篇综述介绍了基于深度学习的 FAS 方法、FAS 数据集以及 FAS 评估协议。此外,作者还介绍了各种 FAS 传感器的优缺点,并讨论了 FAS 的未来研究方向。

你可能感兴趣的:(目标检测,人脸识别,深度学习,人工智能,活体检测,图像分类)