性别估计论文阅读——HyperFace

HyperFace: A Deep Multi-Task Learning Framework for Face Detection, Landmark Localization, Pose Estimation, and Gender Recognition

作者原创,转载注明出处https://blog.csdn.net/heruili/article/details/88949599

Ranjan R, Patel V M, Chellappa R. Hyperface: A deep multi-task
learning framework for face detection, landmark localization, pose
estimation, and gender recognition[J]. IEEE Transactions on Pattern
Analysis and Machine Intelligence, 2019, 41(1): 121-135.

摘要
提出了一种利用深度卷积神经网络(CNN)同时进行人脸检测、地标定位、姿态估计和性别识别的算法。该方法被称为HyperFace,它使用一个单独的CNN和一个基于融合特征的多任务学习算法来融合深度CNN的中间层。它利用任务之间的协同作用来提高他们的个人表现。此外,我们还提出了HyperFace的两种变体:(1)基于ResNet-101模型的HyperFaceResNet,在性能上取得了显著的改进;(2)快速HyperFace,使用高召回率的快速人脸检测器生成区域建议,以提高算法的速度。大量的实验表明,所提出的模型能够同时捕捉人脸的全局和局部信息,并且在这四项任务中的每一项上的性能都明显优于许多具有竞争力的算法。

面部的检测和分析是计算机视觉中的一个挑战性问题,并且已经积极地研究了面部验证,面部跟踪,人物识别等应用。尽管基于深度卷积神经网络(CNN)的最新方法已经取得了显着的成果。面部检测任务[12],[42],[60],仍然难以从包含极端姿势,照明和分辨率变化的面部图像获得面部地标位置,头部姿势估计和性别信息。人脸检测,地标定位,姿势估计和性别分类的任务通常作为单独的问题得到解决。最近,已经表明同时学习相关任务可以提高单个任务的性能[6],[70],[71]。在本文中,我们提出了一种基于CNN的新型框架,用于同时进行人脸检测,面部标志定位,头部姿势估计和性别识别(见图1)。我们设计了一个CNN架构来学习这些任务的常用功能和利用他们之间的协同作用。我们利用特征中包含的信息在整个网络中分层分布的事实,如[63]中所示。较低层响应边缘和角落,因此包含更好的定位属性。它们更适合学习地标定位和姿势估计任务。另一方面,更深层次是特定类别,适用于学习面部检测和性别识别等复杂任务。很明显,我们需要利用深CNN的所有中间层来训练正在考虑的不同任务。我们将中间层特征集称为超特征。我们从[1]中借用了这个术语,它用它来表示多层图像编码的局部直方图堆栈。由于CNN架构包含多个层,每层中有数百个特征映射,因此超特征的整体维度太大而无法有效地学习多个任务。此外,超特征必须以它们有效地编码多个任务共有的特征的方式相关联。这可以使用特征融合技术来处理。特征融合旨在转换特征的共同子空间,即线性或非线性组合的特征。深度学习的最新进展表明CNN能够估计任意复杂的函数。因此,我们构建了一个单独的fusionCNN来融合超特征。为了学习任务,我们使用多个损失函数同时训练它们。通过这种方式,特征可以更好地理解面部,从而改善各个任务的性能。深入的CNN与融合的CNN结合在一起,可以总结为终结。

我们还使用现成的基于区域的CNN(R-CNN [15])方法研究人脸检测,地标定位,姿势估计和性别识别任务的性能。 尽管在DP2MFD中已经探索了用于人脸检测的R-CNN [42],但我们基于R-CNN提供了对所有这些任务的综合研究。 此外,我们研究多任务方法而不融合CNN的中间层。 详细的实验表明,多任务学习方法比基于个人学习的方法表现更好。 融合中间层功能可提供额外的性能提升。 本文作出以下贡献。
1、我们提出了两种新颖的CNN架构,它们通过融合网络的中间层来执行面部检测,地标定位,姿势估计和性别识别。 第一个名为HyperFace的模型基于AlexNet [29]模型,而第二个名为HyperFace-ResNet(HFResNet)的模型基于ResNet-101 [18]模型。
2)我们提出了两种后处理方法:迭代区域提议(IRP)和基于标记的非最大抑制(L-NMS),它利用从CNN获得的多任务信息来提高整体性能。
3)我们研究了基于R-CNN的单个任务方法和没有中间层融合的多任务方法的性能。
4)对于所有这四项任务,我们在挑战无约束数据集方面取得了显着的性能提升。

性别估计论文阅读——HyperFace_第1张图片

性别估计论文阅读——HyperFace_第2张图片

性别估计论文阅读——HyperFace_第3张图片

性别估计论文阅读——HyperFace_第4张图片

性别估计论文阅读——HyperFace_第5张图片
我们根据实验提出了一些观察结果。 首先,所有与面部相关的任务都有利于使用多任务学习框架。 增益主要是由于网络能够学习更具辨别力的特征,以及后处理方法可以通过具有地标以及区域的检测分数来利用。 其次,融合中间层改善了姿势估计和地标定位的结构相关任务的性能,因为这些特征对于CNN的更深层中的几何变得不变。 HyperFace利用这些观察来改善所有四个任务的性能。

性别估计论文阅读——HyperFace_第6张图片
Discussion
我们还将HyperFace网络学习到的特性可视化。图14为convall层192个特征图中少数几个特征图的网络激活情况。可以看出,一些feature map只用于一个任务,而另一些可以用来预测不同的任务。例如,feature map 27和186分别可以用于人脸检测和性别识别。前者能区分人脸和非人脸区域,而后者对女性人脸的激活程度较高。同样,feature map 19在眼睛和嘴巴附近区域的激活程度较高,feature map 96给出了人脸方向的大致轮廓。这些特征可用于地标定位和姿态估计任务。我们的方法在AFW、PASCAL和FDDB数据集上的几个定性结果如图15所示。从图中可以看出,我们的方法能够同时对包含极端姿态、光照和背景杂乱情况下分辨率变化的图像执行这四个任务。

结论
本文提出了一种多任务深度学习方法HyperFace,用于同时检测人脸、定位地标、估计头部姿态和识别性别。使用各种公开可用的无约束数据集进行的大量实验证明了我们的方法在所有四个任务上的有效性。在未来,我们会评估我们的方法在其他应用上的表现,例如同时进行人体检测和人体姿态估计,目标识别和行人检测。

你可能感兴趣的:(性别年龄)