这里翻译下《Deep face recognition: a survey v4》.
1 引言
- holistic 方法:通过某种分布假设去直接获取低维度的表征,如线性子空间[13,14,111],流行[43,67,191],稀疏表示[40,42,176,212]。该思想在1990年代占据了主流,直到2000年左右。然而,一个众所周知的问题就是这些理论可解释性的整体方法往往无法处理无约束下的人脸变化,因为它们都是来自预先假设的分布。
- 在2000年代,该问题转化成了基于局部特征的FR,Gabor[98],LBP[5]还有它们的多级别和高维度的扩展版本[26,41,213]。基于局部过滤的方式,在一些不变性要求上获得了较为鲁棒的性能。可是,手工设计的特征缺少特异性和紧凑性。
- 在2010年代早期,人们又提出了基于学习的局部描述子方法[21,22,89],其中局部滤波器都是通过学习得到的,从而有了更好的特异性,而且编码的编码本也让特征具有更好的紧凑性。然而这些浅层表征仍然有着不可避免的限制,它们对于复杂的非线性人脸外观变化的鲁棒性并不好。
- 浅层方法试图通过一层或者2层表征学习来完成FR问题,而深度学习方法是用一个非线性处理单元的多层级联去进行特征提取和变换。它们学到的多层表征可以对应不同层级的抽取。这些层级构成了概念的层次结构,显示了在复杂数据集上的超越特征不变性,如图2所示。
- 类间差别不大,因为大家脸都长得差不多;
- 类内差别很大,同一个人在不同的姿态,光照,表情,年龄,和遮挡下有着十分巨大的变化。
正是因为大量的训练数据和GPU的普及,在近五年中,深度FR技术在学术benchmark数据集上不断的刷新之前的记录,而且随后在真实世界中也有不少的应用落地。在近些年,也有不少基于FR[3,18,78,136,222]和它的子领域综述,如光照不变性FR[234],3D FR[136],姿态不变FR[216]等等。然而这些综述都只覆盖了浅层FR的方法,在本文中,作者关注最新的基于深度特征学习的FR进展,还有对应的数据集的发展,人类处理方式和人脸匹配的发展等等。人脸检测和人脸对齐超出了本文的讨论范围,可以看Ranjan的工作[123],其对完整的深度FR流程有简洁的介绍。具体的,本文的贡献如下:
- 是一个关于深度FR上网络结构和损失函数的系统性综述,各种不同的损失函数被归类为:基于欧式距离的,基于角/余弦边际的损失,基于softmax损失和它的变种。主流的网络结构如DeepFace[153],DeepID系列[145,146,149,177],VGGFace[116],FaceNet[137]和VGGFace2[20],还有其他特别为FR设计的结构;
- 将人脸处理方法进行了归类,划分成2类:one-to-many的增强和many-to-one的归一化,并讨论了如何用GAN[53]去促进FR。
- 分析了几大重要的数据集,主流的benchmark,如LFW[74],IJB-A/B/C[87,174],Megaface[83],MS-Celeb-1M[59]。在以下四个角度去进行介绍:训练方式,评估任务,评估指标,识别场景。
- 总结了许多对深度FR来说仍然十分具有挑战性的特定FR场景,如反欺骗,跨姿态FR,跨年龄FR。这些场景解释了未来深度FR需要努力的方向。
- 第二部分,介绍了一些背景概念和术语,然后简短的介绍了FR每个组件;
- 第三部分,介绍了不同的网络结构和损失函数;
- 第四部分,总结了人脸处理的一些算法;
- 第五部分,介绍了一些数据集和评估方法
- 第六部分, 介绍了在不同场景下的一些深度FR方法。
- 第七部分,总结和展望。
2 概述
2.1 背景概念和术语
- 人脸检测:用来在图像和视频中定位人脸;
- 人脸关键点检测:用来对齐人脸到规范化的坐标上;
- FR模块:基于对齐的人脸做人脸验证或者识别
本文主要关注上述的FR模块。而FR模块又可以划分成人脸验证和人脸识别。不论是哪种,都需要提供训练集(gallery)和测试集(probe)。人脸验证是基于测试集和训练集计算当前两张人脸是否属于同一个人(1:1);人脸识别是计算当前测试人脸与人脸库中哪一张最相近(1:N)。当测试的人脸出现在训练集中,该问题叫做闭集识别(closed-set identification),当测试的人脸不在训练集中,该问题叫开集识别(open-set identification)。
2.2 人脸识别的组成部分
\[M[F(P_i(I_i)), F(P_j(I_j))]\]
- one-to-many增强:从单张图片中生成许多块或者图片来进行姿态变化的多样性,保证深度网络能学到姿态不变性表征;
- many-to-one归一化:从单张或多张非正脸图片中恢复人脸图片到规范的角度;然后FR可以如在约束条件下进行识别或验证。
- 基于欧式距离的loss:基于欧式距离去压缩类内方差,并扩大类间方差;
- 基于角/余弦边际的loss:以角的相似性去学习判别性的人脸特征,使得学到的特征有潜在更大的角/余弦分离;
- softmax和它的变种:直接使用softmax损失或者修改softmax以提升性能。如基于特征或者权重的L2正则,还有噪音注入。
在深度网络经过大量的数据和合适的损失函数训练之后,可以将每个测试图片经过该网络,从而获取该图片的深度特征表征。一旦提取了该深度特征,就可以直接用许多去计算两个特征之间的相似性,如余弦距离,L2距离;然后通过最近邻或者阈值比较的方式去完成人脸识别和验证的任务。另外还能通过对深度特征进行后处理阿荣你还提升人脸匹配的效率和速度,例如度量学习,基于稀疏表示的分类器(sparse-representation-based classifier,SRC)。在图4中,总结了FR各种模块和他们通常使用的方法,以方便读者对FR有个宏观视角。
3 网络结构和训练损失函数
3.1 判别性损失函数的演变
从目标分类网络发展至今,如alexnet,最开始的FR网络如Deepface[153]和DeepID[149]都是采用基于softmax loss的交叉时进行特征学习的。然后人们发现softmax不足以去学习有大边际的特征,所以更多的研究者开始利用判别性损失函数去增强泛化能力。这也变成了深度FR研究中最火热的研究点,如图5.
欧式距离loss是一种度量学习[171,185],即通过将图片嵌入到欧式空间中,完成压缩类内方差扩大类间方差的目的。contrastive loss和triplet loss都是较为常用的损失函数。contrastive loss[145,146,150,177,198]需要人脸图像对(face image pairs),然后将其中的正对(positive pairs)拉近,将负对(negative pairs)推远。
这里 \(y_{ij}=1\)意味着 \(x_i\)和 \(x_j\)是匹配的样本,当 \(y_{ij}=-1\)意味着他们是不匹配的样本。 \(f( \cdot )\)是特征嵌入向量, \(\epsilon^+\)和 \(\epsilon^-\)控制着匹配对和不匹配对的边际。DeepID2[177]通过将人脸识别(softmax)和人脸验证(contrastive loss)的监督信号结合起来去学习判别性表征,并用联合贝叶斯(JB)去获取一个鲁棒性的嵌入向量空间。DeepID2+[145]增大了隐藏表征的维度并在前面的网络层增加了监督信号,而DeepID3[146]更是引入了VGGNet和GoogleNet。然而contrastive loss的主要问题是边际参数十分难选择。
不同于contrastive loss是计算匹配对和不匹配对的绝对距离,triplet loss考虑他们之间的相对距离。随着google提出FaceNet[137],triplet loss[46,99,116,132,133,137]被引入到FR中。不过它需要人脸三元组,然后最小化锚点与同一个ID的其他正样本之间的距离,最大化锚点与其他ID的负样本之间的距离。FaceNet使用硬triplet人脸样本去完成公式如
\[||f(x_i^a)-f(x_i^p)||_2^2+\alpha < -||f(x_i^a)-f(x_i^n)||_2^2\]
这里 \(x_i^a\), \(x_i^p\), \(x_i^n\)分别是锚点,正样本和负样本。 \(\alpha\)是边际; \(f(\cdot )\)表示一个非线性变换通过将图片嵌入到特征空间中。受FaceNet的启发,TPE[132]和TSE[133]是去学习一个线性映射 \(W\)到construct triplet loss,其中TPE满足等式3,TSE部分满足等式4
其他方法有结合triplet loss和softmax loss[36,46,99,228]。他们首先用softmax训练网络,然后用triplet loss做微调。然而,contrastive loss和triplet loss有时候会遇到训练的不稳定,这主要与选择的训练样本有关。一些论文就开始寻找简单的代替方法。center loss[173]和它的变种[39,183,215]对于压缩类内方差是个好选择。在[173]中,center loss学到每个类的中心,然后惩罚深度特征和他们的类中心的距离。这个loss可以定义成如下形式
这里 \(x_i\)表示属于 \(y_i\)类的第 \(i\)个深度特征, \(c_{y_i}\)表示 \(y_i\)类的深度特征的中心。为了处理长尾问题,range loss[215]用于最小化一个类中k个最大range的harmonic均值,然后最大化一个batch中最短类间距离。Wu[183]提出了一个center-invariant loss,其用于惩罚每个类中心之间的距离。Deng[39]选择最远的类内样本和最近的类间样本用于计算边际损失(margin loss)。然而center loss和他的变种仍然受制于分类层在GPU内存中的占用,而且最好每个ID有平衡的足够的训练数据。
在2017年,人们对深度FR中的损失函数有了更深层次的理解,认为样本应该更严格的分离样本以避免对困难样本的误分类。角/余弦边际loss[38,100,101,102,162]被提出用来让学到的特征在更大角/余弦距离上能够潜在可分。Liu[101]将原始softmax loss重新定义到一个大边际(large-margin softmax, L-softmax) loss,这需要\(||W_1|| ||x|| cos(m\theta_1) > ||W_2||||x||cos(\theta_2)\),这里\(m\)是引入角边际的正整数,\(W\)是最后一层全连接层的权重,\(x\)表示深度特征,\(\theta\)是他们之间的角度。因为余弦函数的非单调性,在L-softmax中引入分段函数以保证单调性。该loss函数定义为:
然而L-softmax比较难收敛,softmax loss总是被结合进去,以方便和确保收敛,然后通过一个动态超参数 \(\lambda\)去控制权重。通过增加额外的softmax loss,该loss的新形式为:
基于L-Softmax,A-Softmax loss随之被提出[100],通过L2范数( \(||W||=1\))去归一化权重 \(W\),这样归一化后的向量就落在了超球面上,然后可以通过在超球面流行上学习一个角边际(图6)去获取判别性的人脸特征。
Liu[102]引入一个深度超球面卷积网络(SphereNet),采用超球面卷积作为其基本卷积算子,并通过角边际的loss进行监督。为了克服L-Softmax和A-Softmax的优化困难,他们以乘法方式结合角边际,ArcFace[38]和ConsineFace[162],AMS loss[164]各自引入一个额外的角/余弦边际 \(cos(\theta + m)\)和 \(cos\theta -m\)。他们都很容易实现,且没有超参数 \(\lambda\),而且更清晰,并且不需要通过softmax的监督去完成收敛。表4中展示了基于二分类的决策面。
在2017年,除了将softmax loss重定义到一个角/余弦边际loss中,仍然有许多基于softmax本身的工作。如对softmax loss中的特征或者权重做归一化。这可以写成如下形式:
这里 \(\alpha\)是一个尺度参数。缩放 \(x\)到一个固定的半径 \(\alpha\)是很重要的,如[163]证明了归一化特征和权重到1 可以让softmax loss在训练集上陷入到一个很大的值。特征和权重归一化是高效的tricks,而且可以用在其他loss上。
在[38,100,102,162]中,loss函数只归一化权重并用角/余弦边际进行训练可以让学到的特征更具判别性。相较之下,许多工作[60, 122] 自适应特征归一化只是解决了softmax的样本分布的偏置。基于[115]的观测结果,用softmax loss加上L2-范数学到的特征具有人脸质量的信息性,L2-softmax[122]强制让所有的特征通过特征归一化使得他们具有相同的L2范数,这样高质量的正脸和有着极端姿态的模糊人脸就有相似的注意力。Hasnet[60]不是通过缩放参数 \(\alpha\),而是用 \(\hat x=\frac{x-\mu}{\sqrt{\sigma^2}}\)来归一化特征,这里 \(\mu\)和 \(\sigma^2\)是均值和方差。归一化特征和权重[61,104,163]已经变成了一个通用的策略了。在[163]中,Wang从分析角度和几何角度揭示了归一化操作的必须性。在特征和权重归一化后,CoCo loss[104]优化额数据特征内部的余弦距离,而[61]使用von Mises-Fisher(vMF)混合模型区作为理论基础,提出了一个新颖的vMF混合loss和对应的vMF 深度特征。
3.2 网络结构的演变
在2012年,Alexnet[88]在Imagenet上获得了最好的结果,超过第二名一大截。alexnet包含了5层卷积层和三层全连接层,他同时整合了多种技术,如ReLU,dropout,数据增强等等。然后在2014年,VGGNet[142]被提出,其中包含非常小的卷积过滤器(3x3),和在每次2x2池化之后,将通道数进行加倍。它成功的让CNN的深度提升到了16-19层,其网络结果表明了通过深度结构学习非线性映射的灵活性。在2015年,22层的GooleNet[151]引入一个"inception模块"。在2016年。。。。 主流结构如图8.
受到目标分类中的进展影响,深度FR也追寻着这些主流结构的使用。在2014年,DeepFace[153]是第一个采用了7层局部连接层的一个9层CNN。通过对数据进行三维对齐,它在LFW上获得了97.35%的准确度。在2015年,FaceNet[137]使用一个私有的人脸数据集去训练googlenet,通过一个新颖的在线triplet挖掘方式生成许多人脸块,然后在对齐的匹配/不匹配人脸块三元组上使用triplet loss函数,获得了99.63%的准确度。同年VGGface[116]也公开了一个人脸数据集,在该数据集上训练的VGGNet然后通过类似FaceNet的triplet loss进行微调,在LFW上获得了98.95%的结果。在2017年,SphereFace[100]使用一个64层的Resnet结构,并提出了angular softmax(A-softmax) loss,通过使用角边际学到了判别性人脸表征,将结果提升到了99.42%。在2017年底,出现了一个新的人脸数据集,VGGface2[20],其包含了在姿态,年龄,光照,种族,职业都有很大的变化。Cao首次用SEnet在Ms-celeb-1M[59]数据集上进行训练,然后用VGGFace2进行微调,在IJB-A[87],IJB-B[174]上获得了最好的效果。
联合对齐-表征的网络:最近,一个端到端的系统[29,63,178,227]可以用来联合训练几个模块(人脸检测,对齐等等)。相较于那些每个模块根据不同的目标单独优化,这个端到端系统根据识别目标优化每个模块,从而为识别模型提供更充分和稳健的输入。例如,受spatial transformer[77]的感想,Hayat[63]提出一个基于CNN的数据驱动方法,同时进行注册器的学习和人脸表征的学习(图9)
Wu[178]设计了一个新颖的递归空间变换(recursive spatial transformer, ReST)模块,让CNN能够同时进行人脸对齐和识别。
多输入网络:对应"one-to-many增强"是通过生成图像的多个块或者姿态的形式,该结构也可以改成同时接受多个输入的多重网络。在[46,99,145,148,149,177,228]中,多重网络都是在生成不同人脸块之后进行构件的,然后一个网络去处理其中的一种数据类型。其他文献[82,108,167]使用多重网络去处理不同姿态的图片。例如,Masi[108]先调整姿态到正脸(\(0^o\)),半脸(half-profile)(\(40^o\)),全貌(full-profile view)(\(75^o\)),然后通过多角度网络去处理姿态变化。在[82]中的多角度深度网络(multi-view deep network, MvDN)包含特定角度的子网络和通用子网络,前者用来移除特定角度的变化,后者获取通常的表征。Wang[167]使用对SAE来应对交叉角度FR(cross-view)
3.3 用深度特征进行人脸匹配
度量学习,意在找到一个新的度量,能够让两个类更具有可分性,同样可以用在基于人脸匹配的深度特征上。如联合贝叶斯(JB)[25]模型是一个众所周知的度量学习方法[145,146,149,177,198]。Hu[70]证明了其能很大的提升性能。在JB模型中,人脸特征\(x\)以\(x=\mu+ \epsilon\)进行建模,这里\(\mu\)和\(\epsilon\)分别是ID和类内方差。相似性得分\(r(x_1,x_2)\)可以表示成:
这里 \(P(x_1,x_2|H_I)\)是两个人脸图片属于同一个人的概率, \(P(x_1,x_2|H_E)\)是两个人脸图片属于不同ID的概率。
在计算了余弦距离之后,Cheng[30]在多个CNN模型的鲁棒性多视图组合的相似性得分上提出了一个启发式投票策略在MS-celeb-1M 2017的challege2上获得了第一名。在[197],Yang在人脸图像的局部区域上提取局部自适应卷积特征,然后基于扩展的SRC在一个ID一个样本上完成FR。Guo[56]将深度特征和SVM分类器结合起来去识别所有的类。基于深度特征,Wang[160]首次使用乘积量化(product quantization,PQ)[79]去直接检索top-k个最相似的人脸,然后通过结合深度特征与COTS匹配器[54]进行人脸的重排序。另外,当训练集和测试集的ID有重复时,可以用softmax做人脸匹配。例如在MS-celeb-1M challenge2中,DIng[226]训练了一个21000类的softmax分类器,直接在通过条件GAN进行特征增强之后识别one-shot类和正常类的人脸图片。Guo[58]通过训练结合了underrepresented-classes promotion loss项的softmax来增强该性能。
当训练集的分布和测试集的分布是一样的,那么上述人脸匹配方法效果都很好。可是如果不一样,那么效果就会急转直下。迁移学习[113,166]也就被引入到深度FR中,其利用在一个相对的原领域(训练集)进行FR的训练,然后在目标领域(测试集)进行执行FR。当存在领域迁移时,有时候这有助于人脸匹配。[36,187]采用了模板自适应,这是一种模板的迁移学习,通过结合CNN特征与特定模板的线性SVM。但是大多数,只在人脸匹配上进行迁移学习还是不够的。迁移学习应该潜入到深度模型中去学习更具迁移性的表征。Kan[81]提出一个bi-shifting自动编码网络(bi-shifting autoencoder network,BAE)在跨视角,种族和图像成像传感器之间进行领域自适应;而Luo[233]针对同一个目的采用了多核最大均值差异(multi-kernels maximum mean discrepancy,MMD)。Sohn[143]使用对抗学习[158]去将静态图片FR进行知识迁移到视频FR上。先使用目标训练数据进行训练,在预训练好的模型上将CNN参数进行微调到新的数据集。在很多方法中都是这么用的[4,28,161]。
4 训练和识别中的人脸处理
在2014年到2015年,大多数的方法还是SAE模型和CNN模型;在2016年3D模型占据了主流;在Goodfellow发明GAN[53]开始,GAN就被深度学习和机器视觉社区深入研究。它可以用在多个不同的领域,同样也有人脸处理。在2017年,GAN显示了其在FR的能力,他不但可以完成”one-to-many增强“,也能完成”many-to-one归一化“,同时它打破了人脸合成需要基于有监督的限制。虽然GAN还没广泛用在人脸处理和识别中,它还是很有潜力的。例如,Dual-Agent GANs(DA-GAN)[221]在NIST IJB-A 2017FR比赛上赢得了验证和识别的第一名。
4.1 one-to-many的增强
- 数据增强:
- 3D模型;
- CNN模型;
- GAN模型。
3D模型:3D人脸重构同样是一个丰富训练数据的方法,有许多论文在这方面有研究,但是我们只关注使用深度方法去进行3D人脸重构的部分。在[109]中,Masi用新的类内外观变化去生成人脸图片,包括姿态,形状和表情,然后用VGG-19去训练真实和增强的数据。[107]使用通用3D人脸和渲染的固定视角去减少计算代价。Richardson[129]使用了一个迭代3D CNN,通过使用辅助输入通道表示之前网络的输出作为用于重建3D人脸的图像,如图12
Dou[48]使用一个多任务CNN,将3D人脸重构任务划分成神经3D重构和表情3D重构。Tran[155]直接通过一个非常深的CNN结构去回归3D可变型人脸模型(3d morphable face model,3DMM)。An[208]采用3DMM去合成各种姿态和表情的人脸图片,然后通过MMD去减少合成数据与真实数据之间的鸿沟。
CNN模型:不采用先从2D图像进行3D重构然后将其映射回2D的各种不同的姿态的方法,CNN能直接生成2D的图片。在多角度感知中(multi-view perceptron,MVP)[231],判别性的隐藏层神经元可以学习ID特征,而随机隐藏神经元可以去抓取视角特征。通过采样不同的随机神经元,不同姿态的人脸图片都是合成的。类似[201],Qian[200]使用了7个Recon codes将人脸以7个不同的姿态进行旋转,然后提出了一个unpair-supervised方法去学习人脸变化的表征,而不是通过Recon code去做有监督
4.2 many-to-one的归一化
SAE:提出的堆叠渐进式自动编码器(stacked progressive autoencoders,SPAE)[80]渐进的将非正脸通过几个自动编码器进行堆叠映射到正脸上。在[195]中,一个结合了共享ID单元(identity units)和递归姿态单元的一个递归卷积编码解码网络(recurrent convolutional encoder-decoder)在每个时间步上通过控制信号去渲染旋转的目标。ZHang[218]通过设置正脸和多个随机脸为目标值构建了一个many-to-one编码。
CNN:Zhu[230]在规范视角上,使用一个有特征提取模块和正脸重构模块组成的CNN去提取人脸身份保留特征从而重构人脸。Zhu[232]根据人脸图像的对策和外形选择规范视角的图片,然后通过一个CNN基于最小化重构loss去重构正脸。Yim[201]提出一个多任务网络,其能够通过使用用户远程编码(user's remote code),旋转一个任意姿态和光照的人脸到目标姿态人脸上。[73]根据它们之间的像素位移场将非正脸图像变换为正脸图像。
GAN:[75]提出一个两路径的生产对抗网络(two-pathway GAN, TP-GAN),其包含四个定点关键点人脸块网络和一个全局的编码解码网络。通过结合对抗loss,对称loss和ID保留loss,TP-GAN生成一个正脸角度的同时保留了全局结构和局部信息,如图13.
5 人脸数据集和评估方案
5.1 大规模通用训练数据集
为了处理这个问题,CASIA-WebFace[198]首次提供了一个超大数据集,其中包含1w个名人,50十万张图片。基于其数据集的量和简单的使用方法,它变成了学术界的一个标准数据集。然而因为其数据量和ID不够多,还是无法推进更多更好的深度学习方法。当前已经有了不少公开的数据集,如MS-Celeb-1M[59], VGGface2[20], MegaFace[83,112].图15
这些大型训练集都是从深度和广度上进行扩展。VGGFace2的是基于深度的大规模训练集,其限制了ID的个数扩展了每个ID的图片个数。数据集的深度增强了模型处理较大类内变化的能力,例如光照,姿态和年龄;而MS-Celeb-1M和Megeface(挑战2)提供了基于广度的大规模训练集,其中包含了很多iD,不过限制了每个ID的图片个数。数据集的广度增强了模型处理类间变化的能力。Cao[20]在VGGFace2和MS-celeb1-M上进行模型训练并做了系统性研究,并发现首先在MS-celeb-1M( 广度)上训练然后在VGGFace2( 深度)进行微调可以得到最优的结果。
几个主流的benchmark如LFW无约束方案,MegaFace挑战1,Ms-Celeb-1M挑战 1&2,都是显式的鼓励研究者去收集和清洗一个大型数据集,从而增强网络的能力。虽然数据工程对CV研究者是一个有价值的问题,可是工业界的人才往往熟知该门道。如lederboards上展示的,大多数都是由公司所占据,因为他们有着巨大计算力和数据。这个现象对于学术界开发新模型是不利的。
5.2 训练方案
在训练方案(training protocol)中,FR模型可以通过目标依赖或者独立环境下进行评估,如图16
5.3 评估任务和性能指标
人脸验证:人脸验证与访问控制系统,Re-ID和FR算法的应用程序独立评估相关。它通常使用(receiver operating characteristic,ROC)和平均(accuracy,ACC)进行评估。给定一个阈值(独立变量),ROC分析可以测量真接受率(true accept rate,tar),真正超过阈值的结果所占比例;假接受率(false accept rate,far)是不正确的超过阈值的结果所占比例。ACC是LFW采用的一个简化指标,表示正确分类的比例。随着深度FR的发展,测试数据集上的指标越来越严格地考虑安全程度,以便在大多数安全认证场景中当FAR保持在非常低的比例时,TAR能够符合客户的要求。PaSC在FAR等于\(10^{-2}\)时对TAR进行评估;IJB-A将其提高到\(TAR@10^{-3}FAR\);Megaface专注于\(TAR@10^{-6}FAR\); 而在MS-celeb-1M 挑战3上,指标是\(TAR@10^{-9}FAR\).
闭集人脸识别:就是基于用户的搜索,Rank-N和累积匹配特征(cumulative match characteristic, CMC)是该场景中常用的指标。Rank-N基于测试样本搜索在排序结果前K个中返回测试样本的正确结果百分比。CMC曲线表示在给定rank(独立变量)测试样本识别的比例。IJB-A/B/C主要使用rank-1和rank-5识别率。MegaFace挑战系统性评估rank-1识别率,其中最好的结果在表6。
MS-Celeb-1M使用precision-coverage曲线去基于可变阈值 \(t\)下测试识别性能。当得分低于阈值 \(t\),则该测试样本会被拒绝。算法之间对比就是看测试样本到底测试正确了多少,如95%,99%,不同算法的评估在表7。
开集人脸识别:该场景是人脸搜索系统中较为常见的。这里识别系统应该拒绝那些未注册的用户。现在来说,很少有数据集是基于该任务考虑的。IJB-A引入了一个决策误差权衡(decision errr tradeoff, DET),以将FNIR表征为FPIR的函数。The false positive identification rate (FPIR) measures what fraction of comparisons between
probe templates and non-mate gallery templates result in a match score exceeding T。the false negative identification rate (FNIR) measures what fraction of probe
searches will fail to match a mated gallery template above a score of T。算法基于低FPIR基础(1%,10%)上,以FNIR来评估IJB-A数据集上算法的结果,如表8
5.4 评估场景和数据
- 跨因素的人脸识别;
- 异质的人脸识别;
- 多(单)媒体的人脸识别;
- 工业界人脸识别
多(单)媒体的人脸识别:理论上深度模型都是基于每个ID大量的图片上训练,然后基于每个ID一张图片上测试。可是现实是,训练集中每个ID的图片很少,被称为low-shot FR,例如MS-Celeb-1M 挑战2;或者测试机中每个ID人脸通常采集自图片和视频,被称为set-based FR,例如IJB-A和PaSC。
工业界人脸识别:虽然深度FR在一些标准benchmark上效果超过了人类,不过当深度FR在工业上应用的时候,我们需要关注更多的细节,如反欺骗(CASIA-FASD[219])和3D FR(Bosphorus[134],BU-3DFE[202]和FRGCv2[119]).对比公开的可用2D数据集,3D扫描很难获取,而且开源的3D人脸数据集也受限扫描的图片个数和ID个数,这也阻碍了3D深度FR的发展。
6 不同的识别场景
6.1 跨因素的人脸识别
跨姿态人脸识别:如[138]中说明的,许多现存算法在正脸-正脸验证改成正脸-侧脸验证时准确度降低10%,交叉姿态FR仍然是一个极端挑战的场景。之前提到的方法包括"one-to-many增强",“many-to-one归一化”,多输入网络和多任务学习还有其他算法都是用来应对该场景的方法。考虑这些方法需要额外的代价,[19]首次尝试在深度特征空间中使用正脸化,而不是图像空间中。一个深度残差等效映射(deep residual equviariant mapping,DREAM)块动态的在输入表征上增加残差去将侧脸映射到正脸上。[27]提出结合特征提取与多角度子空间学习去同时让特征变得姿态鲁棒和判别性。
跨年龄人脸识别:跨年龄FR一直是一个极端的挑战,因为随着年龄的改变,人脸的外观也伴随巨大变化。一个直接的方法就是将输入图片以特定年龄进行合成。[49]提出的生成概率模型可以以短期阶段进行建模年龄变化。Antipov[7]提出通过GAN进行年龄人脸合成,但是合成的人脸不能直接用来做人脸验证,因为它是对ID的不完美表征。[6]使用局部流行自适应(local mainfold adaptation,LMA)方法去解决[7]中的问题。一个代替的方案是将年龄/ID组件进行解耦,然后提取年龄不变性表征。[172]提出了一个潜在ID分析(latent identity analysis,LIA)层去分别这两个组件,如图18.
在[224]中,年龄不变特征可以通过在年龄评估任务中基于表征减去年龄指定的因子。另外,还有其他方法用在跨年龄FR上,如,[15,60]微调CNN去做知识迁移。Wang[169]提出基于siamese深度网络的多任务学习去应对年龄评估。Li[95]通过深度CNN整合了特征提取和度量学习。Yang[192]涉及了人脸验证和年龄评估,利用一个复合训练评价,整合简单的像素级别的惩罚,基于年龄的GAN loss去达到年龄变换,其中的个人依赖评价可以保持ID信息的稳定。
6.2 异质的人脸识别
NIR-VIS人脸识别:由于在低光场景下近红外光谱(NIS)图像的优异性能,NIS图像被广泛应用于监视系统。NIS图像广泛用在监控系统中,因为大多数数据集有可见光(visible light,VIS)图谱图像,如何从VIS图像中识别出一个NIR人脸也成了热点。[103,135]通过微调迁移这个VIS深度网络到NIR领域中。[90]使用一个VIS CNN以交叉光谱幻视的方式变换NIR图像到VIS人脸,然后从低秩嵌入向量上恢复一个低秩结构。[127]训练了两个网络,一个VISNet(可见图像)和一个NIRNet(近红外线图像),通过创建一个siamese网络耦合他们输出的特征。[65,66]将该网络的高层划分到一个NIR层,一个VIS层和一个NIR-VIS共享层;然后,通过NIR-VIs共享层学习一个模态不变特征。[144]将交叉光谱人脸幻视和判别性特征学习嵌入到一个端到端的对抗网络中。在[181]中,低秩相关和交叉模态排序用来缓解该语义鸿沟。
- 一个是使用迁移学习去直接将照片匹配到素描上,这里深度网络受限使用一个照片人脸数据集去训练,然后使用小的素描数据集[51,110]去微调;
- 使用图像到图像的变换,将照片变换到素描上,或者将素描变换到照片上,然后在目标领域中进行FR。[211]将生成损失和判别性正则加到全卷积网络上实现相片到素描的变换。
[209]利用一个分支的全卷积神经网络(branched fully convolutional neural network, BFCN)去生成一个结构保留的素描和一个纹理保留的素描,然后将它们通过一个概率方法进行融合。近期,GAN在图片生成上获得了不小的轰动。[86,199,229]使用两个生成器\(G_A\)和\(G_B\),生成从相片到素描和素描到相片,图20
6.3 多(单)媒体的人脸识别
[32]使用数据增强方法和GAN去做姿态变换和属性加速,以增大训练数据集的规模。[182]提出一个使用CNN和最近邻模型的混合分类器。[58]使用one-shot类和正常类的权重向量的范数对齐以解决数据不平衡问题。[30]提出一个增强softmax以包含最优dropout,选择性衰减,L2 归一化模型级别的优化。Yin[205]通过将主成分从常规类转移到low-shot类来增强low-shot类的特征空间,以鼓励low-shot类的方差来模拟常规类的方差。
set/template-based人脸识别:set/template-based FR问题假设测试样本和训练样本都是用媒体集来表示的如图像和视频,而不只是其中一个。在从每个媒体上独立的学习了表征集合,基于其应用两个不同的策略做FR:
- 使用这些表征做基于两个集合的相似性对比,然后将结果池化到一个,最终的得分,就和最大池化[108],平均池化[105]和它们的变种[220,17]。
- 通过平均或者最大池化将人脸表征融合起来,然后对每个集合生产一个单一表征,然后进行两个集合的对比,这里我们成为特征池化[28,108,132]。
- 整合基于不同帧之间的信息去构建一个视频人脸的表征,
- 要处理视频自带的模糊,姿态变化和遮挡。
对于帧融合,[196]提出一个神经融合网络(neural aggregation network,nan ),在融合模块中,有基于一个memory驱动的两个注意力块,生成128维的特征向量,(图22).
6.4 工业界的人脸识别
3D人脸识别:3D FR继承了2D方法上的优势,但是3DFR没有太多深度网络的使用研究,主要是因为缺少大量的标签数据。为了增强3D训练数据集,大多数工作主要是使用"one-to-many增强"去合成3D人脸。然而,提取3D人脸的深度特征的高效方法依然需要探索。[84]基于少量的3D扫描去微调一个2DCNN。[235]使用一个3通道图像(对应正常向量的深度,方位和elevation 角度)作为输入然后最小化平均预测log-loss。[210]从candide-3人脸模型去选择30个特征点来属性化人脸,然后进行了无监督的人脸深度数据预训练和有监督微调。
7 总结
[139,140]对如何减少人脸欺骗做了一些 工作
