【论文学习】人脸识别——DeepFace:深度学习人脸识别开山之作

大家好,从今天开始就要学习人脸识别相关的知识啦,以后也会分享这一类的文章。人脸识别,必不可少的是Facebook AI研究院的这篇。

论文:DeepFace: Closing the Gap to Human-Level Performance in Face Verification

[cite] Taigman Y, Yang M, Ranzato M A, et al. Deepface: Closing the gap to human-level performance in face verification[C]//Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on. IEEE, 2014: 1701-1708.

这篇文章是2014年CVPR文章,也是深度学习人脸识别的开山之作。类似于RCNN在目标检测领域的地位。

 

摘要

传统的人脸识别流程是:检测——对齐——表示——分类

为了进行分段的仿射变换,我们使用了3D的人脸建模来重现对齐和表达这两步,最终从一个9层的深度神经网络中得到了人脸的表达。

这个网络并非标准的卷积网络层,而是使用了几个未共享权重的局部连接层,网络参数超过了120,000,000个。

我们在迄今为止最大的人脸数据库上训练——4000多个不同的人,总计440万张带标记的人脸库。

这种在大型数据库中基于模型进行准确的对齐并用神经网络训练学习到的人脸表达,可以很好地推广到非受限环境下的人脸表达。

我们的方法在LFW上达到了97.35%的人脸验证精度,逼近了人类的水平。

 

主要贡献

  1. 人脸识别中,通常经过四个步骤,检测,对齐(校正),表示,分类
  2. 论文主要阐述了在对齐和表示这两个步骤上提出了新的方法,模型的表现超越了前人的工作
  3. 对齐方面主要使用了3D人脸模型来对齐人脸,表示方面使用了9层的一个CNN,其中使用了局部卷积

 

人脸对齐

  1. LBP+SVR的方法检测出人脸的6个基准点,眼镜两个点,鼻子一个点,嘴巴三个点,如下图(a)
  2. 通过拟合一个对基准点的转换(缩放,旋转,平移)对图像进行裁剪,得到下图(b)
  3. 对图像定位67个基准点,并进行三角剖分,得到下图(c)
  4. 用一个3D人脸库USF Human-ID得到一个平均3D人脸模型(正脸),如图(d)
  5. 学习一个3D人脸模型和原2D人脸之间的映射P,并可视化三角块,如图(e)
  6. 通过相关的映射,把原2D人脸中的基准点转换成3D模型产生的基准点,得到如图(f)所示,最后的正脸就是图(g)

【论文学习】人脸识别——DeepFace:深度学习人脸识别开山之作_第1张图片

 

人脸表示

  1. 如下图所示,训练了一个DNN来提取人脸图像的特征表示
  2. C1C3表示卷积层,M2表示最大池化层,“32x11x11x3@142x142”表示使用32个大小为11x11x3的卷积核,输出feature map的大小为142x142。前三层主要提取低水平特征,其中最大池化可以使输出对微小的偏移更加鲁棒(可能人脸对齐歪了一些也没关系),因为最大池化会损失信息所有没有使用太多。
  3. L4L5L6是局部卷积层,对于feature map上每个位置,学到不同的卷积核(即一张feature map上的卷积核参数不共享),因为人脸的不同区域会有不同的统计特征,比如眼睛和眉毛之间的区域比鼻子和嘴巴之间的区域具有更高的区分能力。局部卷积层会导致更大的参数量,需要很大的数据量才能支撑的起。
  4. F7F8是全连接层,用来捕捉(不同位置的)特征的相关性,比如眼睛的位置和形状,和嘴巴的位置和形状。F7层的输出提取出来作为人脸特征,和LBP特征对比。F8层的特征喂给softmax用于分类
  5. F7层的输出特征进行归一化(除以训练集上所有样本中的最大值),得到的特征向量值都为01之间。

【论文学习】人脸识别——DeepFace:深度学习人脸识别开山之作_第2张图片

其中,后面三层都是使用参数不共享的卷积核,之所以使用参数不共享,有如下原因:

  1.     对齐的人脸图片中,不同的区域会有不同的统计特征,卷积的局部稳定性假设并不存在,所以使用相同的卷积核会导致信息的丢失
  2.     不共享的卷积核并不增加抽取特征时的计算量,而会增加训练时的计算量
  3.     使用不共享的卷积核,需要训练的参数量大大增加,因而需要很大的数据量,然而这个条件本文刚好满足。

 

人脸分类

得到表示后,使用了多种方法进行分类:

  • 直接算内积
  • 加权的卡方距离
  • 使用Siamese网络结构

 

总结

        理想的面部分类器将识别仅由人匹配的精确面部。底层面部描述符需要对姿势,光照,表达和图像质量不变。它也应该是一般性的,因为它可以应用于几乎没有任何修改的各种群体,如果有的话。另外,短描述符是优选的,并且如果可能的话,稀疏特征。当然,快速计算时间也是一个问题。我们认为,这项工作偏离了最近使用更多功能和采用更强大的度量学习技术的趋势,已经解决了这一挑战,缩小了绝大多数的性能差距。我们的工作表明,将基于3D模型的对齐与大容量前馈模型耦合可以有效地从许多示例中学习,以克服先前方法的缺点和局限性。能够在面部识别方面呈现显着改善的能力,这是计算机视觉的核心领域,经过深入研究和快速发展,证明了这种耦合在其他视觉领域中变得重要的潜力。

 

 

你可能感兴趣的:(深度学习,人脸识别)