论文阅读笔记——人脸网络:人脸识别和聚类的统一嵌入

人脸网络:人脸识别和聚类的统一嵌入

  • 论文简介
    • 标题
    • 期刊情况
  • 论文内容
    • 摘要
    • 介绍
    • 相关工作
    • 方法
      • 三联体损失
      • 三联选择
      • 深度卷积网络
    • 数据集和评估
      • 保持测试装置
      • 个人照片
      • 学术数据集
    • 实验
      • 计算精度权衡
      • CNN模型的影响
      • 对图像质量的敏感度
      • 嵌入维数
      • 培训数据量
      • 在LFW上的表现
      • 在Y outube Faces DB上的表现
      • 人脸聚类
    • 总结
    • 附录:谐波嵌入
      • 谐波三重态损耗
      • 总结

论文简介

标题

  • 英文:《FaceNet: A Unified Embedding for Face Recognition and Clustering》
  • 翻译:《人脸网络:人脸识别和聚类的统一嵌入》

期刊情况

  • 期刊:《Conference on Computer Vision and Pattern Recognition》

论文内容

摘要

  • 尽管最近在人脸识别领域取得了重大进展,但是大规模有效地实现人脸验证和识别对现有的方法提出了严峻的挑战。在本文中,我们提出了一个系统,称为FaceNet,它直接学习从人脸图像到一个紧凑的欧几里得空间的映射,其中距离直接对应于人脸相似性的度量。一旦产生了这个空间,诸如人脸识别、验证和聚类之类的任务就可以使用标准技术以FaceNet嵌入作为特征向量来容易地实现。
  • 我们的方法使用深度卷积网络来直接优化嵌入本身,而不是像以前的深度学习方法那样使用中间瓶颈层。为了进行训练,我们使用一种新的在线三元组挖掘方法生成的粗略对齐的匹配/不匹配人脸面片的三元组。我们的方法的好处是更高的表示效率:我们只使用128字节的每张脸就可以实现最先进的人脸识别性能
  • 在野外(LFW)数据集上,我们的系统获得了99.63%的新记录准确率。在YouTube Faces DB上,它达到了95.12%。我们的系统在两个数据集上将错误率与最佳公布结果相比降低了30%。
  • 我们还引入了谐波嵌入和谐波三重损失的概念,它们描述了不同版本的面嵌入(由不同的网络产生),这些面嵌入相互兼容并允许相互之间的直接比较

介绍

  • 本文提出了一个统一的人脸验证(这是同一个人吗)、识别(这个人是谁)和聚类(在这些人脸中寻找共同的人)系统。我们的方法是基于使用深度卷积网络学习每个图像的欧几里德嵌入。网络被训练成使得嵌入空间中的平方L2距离直接对应于面部相似度: 同一个人的脸距离很小,不同人的脸距离很大。
  • 一旦产生了这种嵌入,那么前面提到的任务就变得直截了当:人脸验证只需要对两个嵌入之间的距离进行阈值处理;识别成为一个k-NN分类问题;并且可以使用诸如k-means或凝聚聚类之类的离线技术来实现聚类
  • 以前基于深层网络的人脸识别方法使用在一组已知人脸身份上训练的分类层,然后采用中间的一层颈部层作为一种表示,用于概括训练中使用的身份集之外的识别。这种方法的缺点是它的间接性和低效率:人们不得不希望瓶颈表现能很好地推广到新面孔;通过使用瓶颈层,每个面的表示大小通常非常大(1000维)。最近的一些工作已经使用主成分分析来降低这种维数,但是这是一种线性变换,可以在网络的一层中容易地学习。
  • 与这些方法相反,FaceNet使用基于LMNN的三重损失函数直接将其输出训练为紧凑的128-D嵌入。我们的三元组由两个匹配的人脸缩略图和一个不匹配的人脸缩略图组成,损失的目的是将正对和负对分开一段距离。缩略图是面部区域的紧密裁剪,除了缩放和平移之外,没有2D或3D对齐。
  • 选择使用哪一个三元组对取得好的成绩是非常重要的,受课程学习的启发,我们提出了一种新颖的在线负样本挖掘策略,该策略确保随着网络训练三元组的难度不断增加。为了提高聚类的准确性,我们还探索了硬正向挖掘技术,该技术鼓励球形聚类嵌入一个人。
  • 我们的方法可以处理难以置信的可变性,如图1所示。图中显示的是PIE中的图像对,这些图像对以前被认为对于人脸验证系统来说非常困难
    论文阅读笔记——人脸网络:人脸识别和聚类的统一嵌入_第1张图片

相关工作

  • 类似于最近使用深度网络的其他工作,我们的方法是一种纯数据驱动的方法,它直接从面部像素中学习其表示。我们不是使用工程特征,而是使用一个大的标签面数据集来获得适当的姿态、光照和其他变化条件的不变性。
  • 在本文中,我们探讨了两种不同的深度网络架构,这两种架构最近在计算机视觉领域获得了巨大的成功。两者都是深度卷积网络。
    • 第一种体系结构基于泽勒&弗格斯模型,该模型由多层交叉卷积、非线性激活、局部响应标准化和最大池层组成。受工作的启发,我们另外添加了几个1×1×d卷积层。
    • 第二种架构基于Szegedy等人的初始模型,该模型最近被用作ImageNet 2014的获奖方法。这些网络使用混合层,并行运行几个不同的卷积和汇集层,并连接它们的响应。我们发现,这些模型可以将参数数量减少多达20倍,并有可能减少可比性能所需的FLOPS数量
  • 有大量的人脸验证和认知作品。回顾它超出了本文的范围,所以我们将只简要讨论最近最相关的工作:
    1. Y . Sun, X. Wang, X. Tang. Y . Taigman, M. Yang, M. Ranzato, L. Wolf. Deepface, Z. Zhu, P . Luo, X. Wang, and X. Tang. 的工作都采用了一个多阶段的复杂系统,它将深度卷积网络的输出与用于降维的主成分分析和用于分类的SVM相结合。
    2. 姚震等人使用深度网络将人脸“扭曲”成规范的正面视图,然后学习CNN,该CNN将每个人脸分类为属于一个已知身份。对于人脸验证,使用网络输出上的主成分分析和一组支持向量机
    3. 泰格曼等人提出了一种多阶段方法,将人脸与一般的3D形状模型对齐。一个多类网络被训练来执行超过4000个身份的人脸识别任务。作者还试验了一个所谓的暹罗网络,他们直接优化两个人脸特征之间的L1距离。他们在LFW的最佳表现(97.35%)来自于三个使用不同排列和颜色通道的网络的集合。使用非线性SVM组合这些网络的预测距离(基于χ2核的非线性SVM预测)。
    4. 孙等人提出了一种紧凑因而相对便宜的计算网络。他们使用一个由25个这样的网络组成的整体,每个网络运行在不同的人脸区域。对于他们在LFW的最终表现(99.47%),作者结合了50个回答(常规和翻转)。采用了主成分分析和联合贝叶斯模型,它们有效地对应于嵌入空间中的线性变换。他们的方法不需要明确的2D/三维对齐。通过使用分类和验证损失的组合来训练网络。验证损失类似于我们采用的三重损失,因为它最小化了相同身份的面之间的L2距离,并在不同身份的面之间的距离上施加了余量。主要的区别是,只有图像对进行比较,而三重损失鼓励相对距离限制。
    5. 王等人在根据语义和视觉相似性对图像进行排序时,研究了与这里使用的损失类似的损失。

方法

  • FaceNet使用深度卷积网络。我们讨论**两种不同的核心架构:**泽勒&弗格斯风格的网络和最近的初始类型的网络。

  • 给定模型细节,并将其视为一个黑盒(见图2),我们方法的最重要部分在于整个系统的端到端学习。为此,我们采用了三重损失,它直接反映了我们希望在人脸验证、识别和聚类中实现的目标。也就是说,我们努力将f(x)从图像x嵌入到特征空间Rd中,使得相同身份的所有面部之间的平方距离(与成像条件无关)较小,而来自不同身份的一对面部图像之间的平方距离较大
    论文阅读笔记——人脸网络:人脸识别和聚类的统一嵌入_第2张图片

  • 虽然我们没有直接与其他损失进行比较,例如Y . Sun, X. Wang, and X. Tang. Deep 提出的等式(2)(见下)中使用的正负对损失,我们认为三重态损失更适合人脸验证。其动机是其损失促使一个身份的所有面被投射到嵌入空间中的一个点上。然而,三重损失试图从一个人到所有其他人的每一对脸之间强制一个余量。这允许一个身份的面孔生活在一个流形上,同时仍然加强距离,从而与其他身份区分开来。
    在这里插入图片描述
    以下部分描述了这种三重态损耗以及如何在规模上有效地学习它。

三联体损失

  • 嵌入用f(x) ∈ Rd表示。它将图像x嵌入到d维欧氏空间中。此外,我们将这种嵌入限制在d维超球面上,即|f(x)|2= 1。这种损失是在最近邻分类的背景下引起的。这里,我们希望确保特定人的图像xa i(锚)比任何其他人的图像xn i(负)更接近同一人的所有其他图像xp i(正)。这可以在图3中看到。
    论文阅读笔记——人脸网络:人脸识别和聚类的统一嵌入_第3张图片
  • 因此我们想要:
    论文阅读笔记——人脸网络:人脸识别和聚类的统一嵌入_第4张图片
    其中α是正负对之间强制的余量t是训练集中所有可能三元组的集合,基数为n
    最小化的损失是:
    论文阅读笔记——人脸网络:人脸识别和聚类的统一嵌入_第5张图片
  • 生成所有可能的三元组将产生许多容易满足的三元组(即满足等式(1)中的约束).这些三元组将不会有助于训练,并导致较慢的收敛,因为它们仍将通过网络传递。重要的是选择硬三元组,它们是活跃的,因此可以有助于改进模型。

三联选择

  • 为了确保快速收敛,选择违反等式(1)中三元组约束的三元组至关重要。这意味着,给定xa i,我们希望选择一个xp i(硬正),这样argmax XP ||f(xa I)-f(XP I)||2 2,同样xn i(硬负),这样argmin xn ||f(xa I)-f(xn I)||2 2。在整个训练集中计算argmin和argmax是不可行的。此外,这可能会导致糟糕的训练,因为错误的标签和糟糕的图像将主导硬阳性和阴性。有两个明显的选择可以避免这个问题:
    • 每n步离线生成三元组,使用最近的网络检查点并计算数据子集的argmin和argmax。
    • 在线生成三元组。这可以通过从小批量中选择硬阳性/阴性样本来完成。
  • 这里,我们专注于在线生成,使用几千个样本数量级的大型小批量,并且只计算小批量中的.
  • 为了有意义地表示锚定正距离,需要确保每个小批量中存在最小数量的任何一个身份的样本。在我们的实验中,我们对训练数据进行采样,使得每个迷你批次的每个身份选择大约40张人脸。此外,随机取样的负表面被添加到每个小批量。
  • 我们不是挑选最难的阳性,而是在一个小批量中使用所有的锚阳性对,同时仍然选择最难的阴性。我们没有在一个小批量中对硬锚阳性对和所有锚阳性对进行并排比较,但我们在实践中发现,在训练开始时,所有锚阳性方法更稳定,收敛速度稍快
  • 我们还结合在线生成探索了三元组的离线生成,它可能允许使用更小的批量,但是实验没有结论。
  • 在训练的早期,选择“最佳消极实践”会导致局部极小值,特别是它会导致模型崩溃(即f(x) = 0)。为了缓解这种情况,选择xn是有帮助的:
    在这里插入图片描述
    我们称这些负样本为半硬样本,因为它们比正样本离锚更远,但仍然很硬,因为平方距离接近锚正距离。那些底片在边缘α内。
  • 如前所述,正确的三元组选择对于快速收敛至关重要。一方面,我们希望使用小批量,因为这有助于提高随机梯度下降(SGD)过程中的收敛性。另一方面,实现细节使得几十到几百个样本的批处理更加高效。然而,关于批量大小的主要限制是我们从小批量中选择硬相关三元组的方式。在大多数实验中,我们使用大约1800个样本的批量。

深度卷积网络

  • 在我们的所有实验中,我们使用随机梯度下降(SGD)和标准反向钻取和AdaGrad 来训练CNN。在大多数实验中,我们从0.05的学习率开始,我们降低学习率以最终确定模型。这些模型是随机初始化的,并在一个CPU集群上训练1000到2000个小时。经过500小时的训练后,损失的减少(和准确性的提高)会急剧下降,但额外的训练仍然可以显著提高性能。余量α设置为0.2。
  • 我们使用了两种类型的架构,并在实验部分更详细地探讨了它们的权衡。他们的实际区别在于参数和FLOPS的不同。最佳型号可能因应用而异。例如,在数据中心运行的模型可能有许多参数,需要大量的FLOPS,而在移动电话上运行的模型需要很少的参数,以便它可以放入内存。我们所有的模型使用校正的线性单位作为非线性激活函数
  • 第一类,如表1所示,在泽勒&弗格斯[22]体系结构的标准卷积层之间增加了1×1×d卷积层,并产生了22层深的模型。它总共有1.4亿个参数,每幅图像需要大约16亿次浮点运算。
    论文阅读笔记——人脸网络:人脸识别和聚类的统一嵌入_第6张图片
  • 我们使用的第二类是基于GoogLeNet风格的初始模型。这些模型的参数减少了20倍(约6.6M-7.5M),浮点运算减少了5倍(在500M-1.6B之间)。其中一些型号的尺寸(深度和过滤器数量)大幅缩小,因此可以在手机上运行。一个,NNS1,有26M的参数,每个图像只需要220M的FLOPS。另一个是NNS2,有4.3M的参数和20M的FLOPS。表2详细描述了我们最大的网络NN2。NN3在架构上是相同的,但是输入大小减少到160x160。NN4的输入大小仅为96x96,因此大大降低了CPU需求(285M FLOPS,NN2为1.6B)。除了减小输入大小之外,它在较高层中不使用5×5卷积,因为那时感受野已经太小了。一般来说,我们发现5x5卷积可以完全去除,精度只有很小的下降。图4比较了我们所有的模型。
    论文阅读笔记——人脸网络:人脸识别和聚类的统一嵌入_第7张图片
    论文阅读笔记——人脸网络:人脸识别和聚类的统一嵌入_第8张图片

数据集和评估

  • 我们在四个数据集上评估了我们的方法,除了在野外的标记人脸和在立方体外的人脸,我们在人脸验证任务上评估了我们的方法。即,给定一对两个面部图像,平方L2距离阈值D(xi,xj)用于确定相同和不同的分类。相同身份的所有面对(I,j)用Psame表示,而不同身份的所有面对用Pdiff表示。
  • 我们将所有真正接受的集合定义为:
    在这里插入图片描述
    这些是在阈值d被正确分类为相同的人脸对(I,j)。类似地
    在这里插入图片描述
    被错误分类为相同的所有对的集合(false accept)。
    对于给定的面部距离d,验证率V a1(d)和错误接受率F AR(d)被定义为:
    在这里插入图片描述

保持测试装置

我们保留了大约一百万幅图像的保持集,这些图像与我们的训练集具有相同的分布,但是不相交。为了评估,我们将它分成五个不相交的集合,每个集合包含200k个图像。然后在100k × 100k的图像对上计算FAR和VAL比率。在五个分割中报告标准误差。

个人照片

这是一个测试集,其分布与我们的训练集相似,但已被手动验证具有非常干净的标签。它由三张个人照片集组成,总共有12k张左右的图像。我们计算了所有12k平方对图像的增强现实和增强现实率

学术数据集

《野性的面孔》(LFW)是事实上用于面孔验证的学术测试集。我们遵循不受限制的、有标签的外部数据的标准协议,并报告平均分类准确度以及平均值的标准误差。
Youtube Faces DB 是一个新的数据集,在人脸识别社区中广受欢迎。该设置类似于LFW,但不是验证图像对,而是使用视频对


实验

如果没有提到,我们使用100-200米之间的训练人脸缩略图,由大约800万个不同的身份组成。在每个图像上运行人脸检测器,并在每个人脸周围生成一个紧密的边界框。这些面部缩略图被调整到相应网络的输入大小。在我们的实验中,输入大小从96×96像素到224×224像素不等。

计算精度权衡

  • 在深入更具体的实验细节之前,我们将讨论特定模型所需的精度与浮点运算次数之间的权衡。图4显示了x轴上的FLOPS和第4.2节中用户标记的测试数据集在0.001错误接受率(FAR)下的精度。有趣的是,我们可以看到模型所需的计算量和它所达到的精确度之间有着很强的相关性。该图突出显示了我们在实验中更详细讨论的五个模型(NN1、NN2、NN3、NNS1、NNS2)。
    论文阅读笔记——人脸网络:人脸识别和聚类的统一嵌入_第9张图片
  • 我们还研究了模型参数数量的准确性权衡。然而,在那种情况下,情况就不那么清楚了。例如,基于Inception的模型NN2实现了与NN1相当的性能,但只有20%的参数。不过,FLOPS的数量相当。显然,如果参数的数量进一步减少,在某一点上,性能预计会下降。其他模型架构可能允许在不损失准确性的情况下进一步减少,就像Inception 在这种情况下所做的那样。
    论文阅读笔记——人脸网络:人脸识别和聚类的统一嵌入_第10张图片

CNN模型的影响

  • 我们现在更详细地讨论我们选择的四种型号的性能。一方面,我们有传统的基于泽勒和弗格斯的1×1卷积结构](见表1)。另一方面,我们有基于Inception 的模型,可以极大地减小模型的尺寸。总的来说,在最终性能方面,两种架构的顶级模型表现相当。然而,我们的一些基于选项的模型,如NN3,仍然取得了良好的性能,同时显著减少了FLOPS和模型大小。
    论文阅读笔记——人脸网络:人脸识别和聚类的统一嵌入_第11张图片
  • 对我们个人照片测试集的详细评估是如图5所示。虽然最大的模型与微小的NNS2相比在精度上有了显著的提高,但后者可以在手机上以30毫秒/图像的速度运行,并且仍然足够精确,可以用于人脸聚类。FAR < 104的ROC值急剧下降表明测试数据中的标签有噪声。在极低的错误接受率下,单个错误标记的图像会对曲线产生显著影响
    论文阅读笔记——人脸网络:人脸识别和聚类的统一嵌入_第12张图片

对图像质量的敏感度

表4显示了我们的模型在各种图像尺寸下的稳健性。该网络在JPEG压缩方面令人惊讶地健壮,并且在JPEG质量为20时表现非常好。对于120x120像素大小的人脸缩略图,性能下降非常小,即使在80x80像素时,它也显示出可接受的性能。这是值得注意的,因为网络是在220x220输入图像上训练的。使用较低分辨率的人脸进行训练可以进一步提高这个范围。
论文阅读笔记——人脸网络:人脸识别和聚类的统一嵌入_第13张图片

嵌入维数

  • 除了表5中报告的比较之外,我们探索了各种嵌入维度,并为所有实验选择了128个。人们会期望较大的嵌入至少和较小的嵌入一样好,然而,它们可能需要更多的训练来达到相同的精度。也就是说,表5中显示的性能的差异在统计上是微不足道的。
  • 应该注意的是,在生成过程中使用了128维的浮点向量,但是它可以量化为128字节,而不会损失精度。因此,每个人脸都由一个128维的字节向量紧密表示,这是大规模聚类和识别的理想选择。较小的嵌入是可能的,但精度损失很小,可以在移动设备上使用。

培训数据量

表6显示了大量培训数据的影响。由于时间限制,此评估在较小的模型上运行;在更大的型号上,这种影响可能更大。很明显,从第4.2节开始,使用数千万个样本会明显提高我们个人照片测试集的准确性。与只有数百万幅图像相比,相对误差减少了60%。使用另一个数量级的更多图像(数亿)仍然会有一点点提升,但这种改善会逐渐减弱。
论文阅读笔记——人脸网络:人脸识别和聚类的统一嵌入_第14张图片

在LFW上的表现

  • 我们对LFW的模型进行了评估,使用的标准协议是不受限制的、有标签的外部数据。九个训练分割用于选择L2距离阈值。然后在第十次测试分割中进行分类(相同或不同)。除第八次分割(1.256)外,所有测试分割的选定最佳阈值为1.242。
  • 我们的模型有两种评估模式:
    1. 固定中心作物的LFW提供。
    2. 在提供的LFW缩略图上运行一个专有的人脸检测器(类似于Picasa )。如果它无法对齐面部(这种情况发生在两幅图像上),则使用LFW对齐。
  • 图6给出了所有失败案例的概述。它在顶部显示错误的接受,在底部显示错误的拒绝。当使用(1)中描述的固定中心裁剪时,我们达到了98.87% 0.15的分类精度,当使用额外的面对齐时,打破了平均值的99.63% 0.09标准误差的记录(2)。这将为DeepFace报告的错误减少了不止一个因子,DeepId2+的报告最新水平提高了30%。这是型号NN1的性能,但即使是小得多的NN3也能实现统计上没有显著差异的性能
    论文阅读笔记——人脸网络:人脸识别和聚类的统一嵌入_第15张图片

在Y outube Faces DB上的表现

我们使用人脸检测器在每个视频中检测到的前一百帧的所有帧对的平均相似度。这给了我们95.12%±0.39的分类准确率。使用前一千帧的结果是95.18%。与91.4%的人评估每视频100帧相比,我们将错误率降低了近一半。DeepId2+ 达到93.2%,我们的方法将该误差减少了30%,与我们在LFW的改进相当。

人脸聚类

我们的紧凑嵌入适合用于将用户的个人照片聚集到具有相同身份的人群中。与纯验证任务相比,由聚类面所施加的分配约束,导致真正惊人的结果。图7显示了用户个人照片集中的一个聚类,它是使用聚集聚类生成的。它清楚地展示了遮挡、光线、姿势甚至年龄的不可思议的不变性。
论文阅读笔记——人脸网络:人脸识别和聚类的统一嵌入_第16张图片


总结

  • 我们提供了一种方法来直接学习一个嵌入到欧几里德空间的人脸验证。这使它有别于使用CNN瓶颈层的其他方法,或者需要额外的后处理,如连接多模型和PCA,以及SVM分类。我们的端到端培训既简化了设置,又表明直接优化与当前任务相关的损失可以提高性能。
  • 我们模型的另一个优点是,它只需要最小的对齐(面部区域周围的紧密裁剪)。例如,执行复杂的3D对齐。我们还实验了相似变换对齐,注意到这实际上可以稍微提高性能。不清楚是否值得额外的复杂性。
  • 未来的工作将侧重于更好地理解错误情况,进一步改进模型,并减少模型大小和降低CPU要求。我们还将研究改进目前非常长的培训时间的方法,例如,我们的课程学习的变化具有较小的批量和离线以及在线积极和消极挖掘。

附录:谐波嵌入

  • 在这一节中,我们介绍了谐波嵌入的概念。由此,我们表示由不同的模型v1和v2生成的一组嵌入,但是在它们可以相互比较的意义上是兼容的。
  • 这种兼容性极大地简化了升级路径。例如,在一个场景中,嵌入v1是在一大组图像上计算的,并且新的嵌入模型v2正在推出,这种兼容性确保了平滑的过渡,而不需要担心版本不兼容。图8显示了3G数据集的结果。可以看出,改进后的NN2模型明显优于NN1,而NN2嵌入和NN1嵌入的比较在中间级别进行
    论文阅读笔记——人脸网络:人脸识别和聚类的统一嵌入_第17张图片

谐波三重态损耗

  • 为了学习谐波嵌入,我们将v1的嵌入和v2的嵌入混合在一起,这是正在学习的。这是在三元组丢失的情况下完成的,并导致额外生成的三元组,这鼓励了不同嵌入版本之间的兼容性。图9显示了导致三联体丢失的不同三联体组合。
    论文阅读笔记——人脸网络:人脸识别和聚类的统一嵌入_第18张图片
  • 我们从独立训练的NN2初始化v2嵌入,并从随机初始化重新训练最后一层(嵌入层),兼容性鼓励三重丢失。首先,只对最后一层进行再训练,然后我们继续训练具有谐波损耗的整个v2网络。
  • 图10显示了这种兼容性在实践中如何工作的可能解释。绝大多数v2嵌入可以嵌入在对应的v1嵌入附近,然而,不正确放置的v1嵌入可以被稍微扰动,使得它们在嵌入空间中的新位置提高了验证精度。
    论文阅读笔记——人脸网络:人脸识别和聚类的统一嵌入_第19张图片

总结

这些都是非常有趣的发现,它如此有效有点令人惊讶。未来的工作可以探索这个想法可以延伸到什么程度。大概有一个限制,v2嵌入可以比v1提高多少,同时仍然是兼容的。此外,培训可以在移动电话上运行并兼容更大的服务器端模型的小型网络也很有意思。

你可能感兴趣的:(人脸识别,计算机视觉)