论文阅读笔记(七)——基于超深度神经网络的人脸识别

论文阅读笔记(七)——基于超深度神经网络的人脸识别

论文简介

论文中文翻译:《基于超深度神经网络的人脸识别》
论文名称:《DeepID3: Face Recognition with Very Deep Neural Networks》

正文

摘要

深度学习的出现极大地推动了人脸识别的发展。超深度神经网络由于其卓越的学习能力,最近在一般物体识别方面取得了巨大的成功。这促使我们研究它们在人脸识别方面的有效性。本文提出了两种用于人脸识别的深度神经网络结构,称为深度3。这两种体系结构是从VGG网[10]和谷歌网[16]提出的堆叠卷积和初始层重建的,以使它们适用于人脸识别。在训练期间,联合人脸识别-验证监督信号被添加到中间和最终特征提取层。两种体系结构的集成分别实现了99.53%的LFW人脸验证准确率和96.0%的LFW一级人脸识别准确率。最后对LFW人脸验证结果进行了进一步的讨论。

介绍

使用深度神经网络来学习有效的特征表示在人脸识别中已经变得流行[12,20,17,22,14,13,18,21,19,15]。近年来,随着更好的深层网络结构和监控方法,人脸识别的准确率得到了快速提高。特别是,最近发展了一些引人注目的人脸表示学习技术。以监督方式学习深层人脸表示的早期努力是采用人脸验证作为监督信号[12],这需要将一对训练图像分类为是否是同一个人。它极大地减少了面部表情的个人差异。然后DeepID [14]和DeepFace [17,18]提出了通过大规模人脸身份分类(人脸识别)来学习有区别的深度人脸表示通过将训练图像分类成大量的身份,深层神经网络的最后一个隐藏层将形成丰富的身份相关特征。利用这种技术,深度学习第一次接近人类在广泛评估的LFW人脸验证数据集的紧密裁剪的人脸图像上的表现[6]。然而,习得的面孔表征也可能包含显著的内部差异。受[12]和[14]的启发,DeepID2 [13]提出了一种通过联合人脸识别-验证来学习深度人脸表示的方法,DeepID2+ [15]对该方法进行了进一步改进。添加验证监督信号显著减少了个人内部差异,导致人脸识别性能的另一个显著改善。LFW整个人脸图像的人脸验证精度最终被超越[13,15]。GoogLeNet [16]和VGG [10]在ILSVRC 2014年的一般图像分类中都名列前茅。这促使我们研究超级学习能力是否也有利于人脸识别。
尽管在高级监控信号的监控下,DeepID2和DeepID2+的网络结构与最近提出的用于一般对象识别的高性能深度神经网络(如VGG和谷歌网)相比要浅得多。VGG网络将多个卷积层堆叠在一起以形成复杂的特征。GoogLeNet通过将多尺度卷积和池合并到一个单独的特征提取层中而变得更加先进,该层被称为初始层[16]。为了提高学习效率,还引入了1x1卷积进行特征降维。
在本文中,我们提出了两种深度神经网络体系结构,称为DeepID3,这两种体系结构比以前最先进的DeepID2+人脸识别体系结构要深得多。DeepID3网络由基本元素(即堆叠卷积或初始重建而成层)的VGG网[10]和谷歌网[16]构成在训练期间,联合面部识别-验证监督信号[13]被添加到最终特征提取层以及每个网络的几个中间层。此外,为了学习更丰富的面部特征库,一些DeepID3网络的更高层中的权重是不共享的。与DeepID2+相比,DeepID3在与DeepID2+相同的数据集上训练,在LFW将人脸验证准确率从99.47%提高到99.53%,将一级人脸识别准确率从95.0%提高到96.0%。当错误标记的人脸对被纠正时,“真实”人脸验证的准确性和一些硬测试样本将在最后进一步讨论。

DeepID3 网络

为了进行比较,我们简要回顾了之前提出的DeepID2+网络架构[15]。如图1所示,DeepID2+网络有三个卷积层,后面是ymax池(神经网络第三个卷积层仅在局部区域共享权重),后面是一个局部连接层和一个完全连接层联合识别-验证监督信号[13]被添加到最后一个完全连接的层(从中提取最终特征用于面部识别)以及从中间汇集层分支出来的几个完全连接的层,以更好地监督早期特征提取过程
所提出的DeepID3网络继承了DeepID2+网络的一些特征,包括在最后几个特征提取层中的非共享神经权重和向早期层添加监控信号的方式。然而,DeepID3网络要深得多,有10到15个非线性特征提取层,而DeepID2+只有5个。特别地,我们提出了两种DeepID3网络体系结构,称为DeepID3网络1和DeepID3网络2,分别如图2和图3所示。DeepID3网的深度是由于在每个汇集层之前堆叠了多个褶积/初始层。连续卷积/初始有助于形成具有更大感受野和更复杂非线性的特征,同时限制参数数量[10]。
建议的DeepID3 net1在每个池层之前采用两个连续的卷积层。与先前文献[10,19]中提出的VGG网络相比,我们在从中间层分支出来的多个全连接层中添加了额外的监控信号,这有助于学习更好的中层特征,并使非常深的神经网络的优化更容易。顶部的两个卷积层被局部连接的层代替。使用非共享参数,顶层可以形成更具表现力的特征,同时降低特征尺寸。我们的DeepID3网络1的最后一个本地连接层用于提取最终特征,而不需要额外的全连接层。
DeepID3 net2从每两个连续的卷积层开始,然后是一个汇集层,就像DeepID3 net1一样,而在后面的特征提取阶段采用初始层[16]:在第三个汇集层之前有三个连续的初始层,在第四个汇集层之前有两个初始层。在每个汇集层之后的完全连接的层上添加联合识别-验证监督信号。
在所提出的两种网络架构中,除了汇集层之外,所有层都使用校正的线性非线性[9],并且在最终的特征提取层上增加了丢失学习[5]。虽然我们的DeepID3网络具有很大的深度,但由于每层中的特征地图数量有限,因此它比VGG网络或谷歌网在一般对象识别中提出的要小得多。
所提出的DeepID3网络在与DeepID2+网络[15]相同的25个面部区域上训练,每个网络将特定的面部区域作为输入。这些面部区域是通过先前工作[13]中的特征选择来选择的,它们在位置、比例和颜色通道上不同,使得不同的网络可以学习互补的信息。经过训练后,这些网络用于从各自的面部区域提取特征。然后在此基础上学习一个额外的联合贝叶斯模型[3]用于面部验证或识别的特征。所有DeepID3网络和联合贝叶斯模型都是在DeepID2+ [15]中使用的大约30万个训练样本上学习的,DeepId 2+[15]是CeleFaces+[14]和WDRef [3]数据集的组合,并在LFW [6]上进行了测试。这两个训练数据集和LFW测试集中的人是互斥的。在图4中,在25个面部区域(具有水平翻转)上,分别将单个DeepID3网在LFW上的面部验证性能与DeepID2+网进行比较。平均而言,DeepID3 net1和DeepID3 net2分别比DeepID2+ net降低了0.81%和0.26%的错误率。
论文阅读笔记(七)——基于超深度神经网络的人脸识别_第1张图片
论文阅读笔记(七)——基于超深度神经网络的人脸识别_第2张图片

实验

为了减少冗余,DeepID3 net1和net2用于提取原始要素或水平要素翻转面区域,但不是两者都翻转。在测试中,特征提取需要50次正向传播,一半来自DeepID3网络1,另一半来自网络2。这些特征被连接成大约30,000维的长特征向量。通过主成分分析,它减少到300维,在此基础上学习联合贝叶斯模型用于人脸识别。
我们分别在LFW人脸验证[6]和LFW人脸识别[1,18]协议下评估DeepID3网络。对于人脸验证,验证6000个给定的人脸对,以判断它们是否来自同一个人。在该协议下,我们实现了99.53%的平均准确率。与以前关于平均准确度和ROC曲线的工作的比较见表1。分别参见图1和图5。
对于人脸识别,我们采用了一个闭集和一个开集的识别协议。对于封闭集识别,图库集包含4249个对象,每个对象有一个人脸图像,探针集包含图库中同一组对象的3143个人脸图像。对于开放集识别,图库集包含596个对象,每个对象有一个人脸图像,探针集包含596个真正的探针和9494个冒名顶替的探针。表2比较了闭集识别的秩1识别精度和开集识别的秩1检测和识别率,分别为1%的误报率。我们分别获得了96.0%的闭集和81.4%的开集人脸识别准确率。
论文阅读笔记(七)——基于超深度神经网络的人脸识别_第3张图片
论文阅读笔记(七)——基于超深度神经网络的人脸识别_第4张图片

商量

有三对测试脸被贴上了同一个人的标签,但实际上是LFW网站上公布的不同的人。在这三对人中,有两对被我们的DeepID3算法归类为同一个人,而另一对被归类为不同的人。因此,对这三个人脸对的标签进行校正后,DeepID3的实际人脸验证准确率为99.52%。对于DeepID2+ [15],它的脸纠正三个错误标签前的验证准确率为99.47%。但是DeepID2+把这三个错误标注的正面人脸对都归为不同的人。在纠正这三个错误标签时,DeepID2+的真脸验证准确率也是99.52% [15]。DeepID3虽然采用了类似于VGG和谷歌网的非常深的体系结构,但在LFW人脸验证任务上并没有比DeepID2+有所改进,后者的体系结构要浅得多。这些非常深的架构是否会利用更多的训练面数据,并最终超越像DeepID2+这样的较浅的架构,这仍然是一个悬而未决的问题。
论文阅读笔记(七)——基于超深度神经网络的人脸识别_第5张图片
论文阅读笔记(七)——基于超深度神经网络的人脸识别_第6张图片
我们检查了LFW的测试人脸对,这些人脸对被所有DeepID系列算法错误地分类,包括DeepID [14],DeepID2 [13,11],DeepID2+ [15]和DeepID3。共有九个常见的假阳性和三个常见的假阴性,约占DeepID3错误分类的所有人脸对的一半。被标记为同一个人但被分类为不同的人的三个面部对在图6中示出。第一对脸显示出年龄的巨大反差。第二对其实是不同的人,由于标注错误。第三个是一个有明显不同化妆的女演员。图7示出了被标记为不同的人同时被算法分类为同一个人的九个面部对。大部分看起来很像或者有遮挡等干扰。
论文阅读笔记(七)——基于超深度神经网络的人脸识别_第7张图片
论文阅读笔记(七)——基于超深度神经网络的人脸识别_第8张图片

结论

本文提出了两种用于人脸识别的更深层次的神经网络结构,称为DeepID3。所提出的DeepID3网络在LFW人脸验证和识别任务上实现了最先进的性能。然而,当LFW的一些错误标签被纠正后,DeepID3相对于DeepID2+在LFW人脸验证上的改进就消失了。未来将在更大规模的训练数据上进一步研究超深度神经网络的有效性。

你可能感兴趣的:(论文阅读笔记(七)——基于超深度神经网络的人脸识别)