Attentional Feature-Pair Relation Networks for Accurate Face Recognition 笔记

这是ICCV 2019 上的一篇文章。

人脸识别的一些数据集:

  1. LFW:Gary B. Huang, Manu Ramesh, Tamara Berg, and Erik
    Learned-Miller. Labeled faces in the wild: A database
    for studying face recognition in unconstrained environments. Technical Report 07-49, University of Massachusetts,
    Amherst, October 2007
  2. YTF:Lior Wolf, Tal Hassner, and Itay Maoz. Face recognition
    in unconstrained videos with matched background similarity.
    In CVPR 2011, pages 529–534, June 2011.
  3. Cross-Age LFW (CALFW),Cross-Pose LFW (CPLFW),Celebrities in Frontal-Profile in the Wild (CFP) : Soumyadip Sengupta, Jun-Cheng Chen, Carlos Castillo, Vishal M. Patel, Rama Chellappa, and David W. Jacobs. Frontal to profile face verification in the wild. In 2016 IEEE Winter Conference on Applications of Computer Vision (WACV), pages 1–9, March 2016
  4. AgeDB:Stylianos Moschoglou, Athanasios Papaioannou, Christos Sagonas, Jiankang Deng, Irene Kotsia, and Stefanos Zafeiriou. Agedb: The first manually collected, in-the wild age database. In 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), pages 1997– 2005, July 2017
  5. IARPA Janus Benchmark-A (IJB-A):Brendan F. Klare, Ben Klein, Emma Taborsky, Austin Blanton, Jordan Cheney, Kristen Allen, Patrick Grother, Alan Mah, Mark Burge, and Anil K. Jain. Pushing the frontiers of unconstrained face detection and recognition: Iarpa janus benchmark a. In 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1931–1939, June 2015
  6. IARPA Janus Benchmark-B (IJB-B):Cameron Whitelam, Emma Taborsky, Austin Blanton, Brianna Maze, Jocelyn Adams, Tim Miller, Nathan Kalka, Anil K. Jain, James A. Duncan, Kristen Allen, Jordan Cheney, and Patrick Grother. Iarpa janus benchmark-b face dataset. In 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), pages 592–600, 2017.
  7. IARPA Janus Benchmark-C (IJB-C) :Brianna Maze, Jocelyn Adams, James A. Duncan, Nathan Kalka, Tim Miller, Charles Otto, Anil K. Jain, W. Tyler Niggel, Janet Anderson, Jordan Cheney, and Patrick Grother. Iarpa janus benchmark - c: Face dataset and protocol. In 2018 International Conference on Biometrics (ICB), pages 158–165, Feb 2018.
  • Abstract
    人脸识别是在生物识别技术上的重要研究领域。但是,由于人脸动作,表情,光照的急剧变化,稳定的人脸识别技术在实际应用上很困难。

    这篇文章提出了一个注意力特征对关系网络(AFRN),该方法通过相关的局部外观块特征对及其注意力分数来表示人脸。AFRN 用 9 x 9 的所有可能的局部外观块特征来表示人脸,每一对的重要性通过注意力图来衡量,注意力图由低秩双线性池化来获得,并且每一对通过它的相关注意力得分来加权。

    为了增加准确率,我们选择局部外观块特征前-K个块作为相关人脸信息并且降低了剩下的无关。通过使用双线性注意网络传播加权的top-K对以提取联合特征对关系。

    使用LFW,YTF,CALFW,CPLFW,CFP,AgeDB,IJB-A,IJB-C数据集来进行实验。

  • Introduction

    在无限制的环境下,人脸外观将会急剧的变化,并且人自己内部的变化将会击垮人际间的变化。

    最近的研究的思路:最小化人自己内部的变化,最大化人际间的变化。

    在基于深度学习的人脸识别方法中,学习到的嵌入的特征不仅需要可分离,还得具有判别能力。

    相关研究工作:

    1. Unconstrained face verification using deep cnn features:通过CNN来提取特征表示;
    2. One-to-many face recognition with bilinear cnns:应用双线性CNN进行人脸识别任务;
    3. Template based face recognition with pooled face images:提出了3D中对齐面部并且合并面部,根据头部姿势和图像质量对其进行分类;
    4. Pose-aware face recognition in the wild: 提出了姿势感知模型(PAM),该模型通过学习正面,半轮廓和全轮廓姿势的姿势感知模型来处理姿势可变性,以提高在不受约束的环境中的面部识别性能;
    5. Triplet probabilistic embedding for face verification and clustering:提出了三重态概率嵌入(TPE),该方法将基于CNN的方法与使用三重态概率约束学习的低维判别嵌入相结合;
    6. Template adaptation for face verification and identification:提出了模板自适应(TA),这是一种向模板中的媒体集进行转移学习的形式,通过将CNN特征与模板自适应相结合,在IJB-A数据集上获得了比TPE更好的性能。
    7. Neural aggregation
      network for video face recognition:提出了神经聚合网络(NAN),它产生了一个紧凑而固定尺寸的特征表示。
    8. L2-constrained softmax loss for discriminative face verification:在特征描述符中增加了一个L2约束,将它们限制在固定半径的超球面上,其中最小化softmax损失等于使正对的余弦相似度最大化,而对负对的余弦相似度最小。

    但是,这些方法提取了整体特征,但未指定特征的哪些部分有意义,哪些特征可分离和有判别力的。因此,难以知道使用哪种特征来清楚地区分面部图像的身份。

    为了克服该缺点,已经进行了一 些关于基于面部部位的面部识别的研究。

    相关研究工作:

    1. Deep learning face representation by joint identificationverification // Deep learning
      face representation from predicting 10,000 classes:人脸区域分为几个子区域使用不同比例的检测到的面部标志点和颜色通道,然后将这些子区域用于训练不同的网络;
    2. Comparator networks:提出了一种比较器网络,该网络使用了基于多个区分性局部子区域的注意力机制,并比较了两对面孔之间的局部描述符;
    3. Face recognition with contrastive convolution:提出了对比卷积,它专门针对两张脸之间的鲜明(对比)特征,试图找出差异并更多地关注两张脸的更好区分;
    4. Pairwise
      relational networks for face recognition:提出了成对的关系网络(PRN),它使所有可能的局部局部特征对成为可能,然后使用每对局部局部特征来捕获相关特征;

    但是,这些方法很大程度上取决于面部标志检测器的准确性,并且没有利用面部部位的重要性。

    提出了 Attentional Feature-pair Relation Network (AFRN) 来克服这些问题。

    1. AFRN 用所有可能的 9 x 9 的局部外观快特征对来表示人脸;
    2. 从低秩双线性池获得的注意力图考虑了每对的重要性,并且每对都由其相应的注意力得分加权;
    3. 我们选择了前K个对的局部外观块特征作为相关的面部信息,并删除了其余不相关的事物;
    4. 通过使用双线性注意网络传播加权的top-K对以提取联合特征对关系。

    图1显示了AFRN的工作原理:


    图1

    贡献如下:

    1. Landmark free local appearance representation:通过相关的局部外观块特征对及其注意力分数可捕获唯一且具有区别性的特征对关系,以在不同身份之间对面部图像进行分类;
    2. Importance of pairs and removing irrelevant pairs:
      我们使用低秩双线性池计算双线性注意图,并通过其注意分数对每对进行加权,然后选择前K个对的局部外观块特征作为相关的面部信息,并删除其余无关的信息。 通过使用双线性注意网络传播加权的top-K对以提取联合关系特征;
    3. 提出的AFRN可以有效改善
      人脸验证和人脸识别的准确性;
  • Proposed Methods
    提出的方法包括四部分:facial feature encoding network;attentional feature-pair relation network;
    top-K pairs selection;
    attention allocation.

    1. Facial Feature Encoding Network

    facial feature encoding network 是将面部图像编码为深度嵌入特征的主干神经网络。利用ResNet-101 network ,并且修改了其输入分辨率,过滤器大小,输出特征图大小。修改后的 ResNet-101 如表1所示。


    表1

    最后一个卷积层(conv5_3)的非线性激活输出用作面部外观表示的特征图。

2. Facial Local Feature
Representation

卷积层的激活输出的规模为:,
表示特征图的高,表示特征图的宽,表示特征图的通道数。
文章中把这个输出看成是个的子区域,用维的局部外光特征块作为第个面部部分。

基于在 conv5_3 的残差块中的特征图,面部趋于被分解为 81 个局部块,每一个快都是 9 x 9,如图2所示:

图2

因此,我们总共提取了81个本地
外观块特征,其中

3. Attentional Feature-Pair Relation Network

AFRN 基于低秩双线性池化,其提供了比线性模型更富有的表示并且能够通过考虑每个特征对发现注意力分布

参考:Jin-Hwa Kim, Kyoung Woon On, Woosang Lim, Jeonghee Kim, Jung-Woo Ha, and Byoung-Tak Zhang. Hadamard product for low-rank bilinear pooling. CoRR, abs/1610.04325, 2016

  • Rearrange Local Appearance Block Features
    为所有成对的局部外观块特征获取特征对双线性注意图和联合特征对关系,需要重新排列一系列局部外光特征块变成矩阵形成,这个操作需要在列方向堆砌每一个局部外观块特征,,其中,如图三所示:

    图三

  • Feature-pair Bilinear Attention Map
    注意机制提供了一种有效的方法,可以通过有选择地利用给定的信息来提高准确性并减少输入特征的数量。为了获得特征对双线性注意力图,我们计算局部外观块特征和之间的对的softmax的对数:

    其中是的softmax的对数,是低秩双线性池化的输出。,,并且。
    是通过线性映射的池化特征和特征的维数,并且在低秩双线性池化。
    意味着 ReLU 非线性激活函数,o 意味着 Hadamard 乘积(按元素相乘)(ps. 对应元素相乘)
    为了获得,将softmax函数逐个元素地应用于每个对数。 以上所有操作都可以重写为矩阵形式:

    公式

    图4展示了处理过程
    图4

  • Joint Feature-pair Relation

要提取所有局部外观块特征对的联合特征对关系并减少局部外观块特征对的数量,我们将低秩双线性池与特征对双线性注意图A结合使用:

公式

其中,,是线性投影。是投影后的维度,在低秩双线性池化中的线性投影矩阵是为了特征对关系。
,。表示中间特征对关系的第个元素。表示的是矩阵的列索引。是 ReLU 非线性激活函数。公式(3)可以将其视为一对局部外观块特征的双线性模型,其中是双线性权重矩阵(图5)。
图5

公式(3)能被重写为:
image.png

最后,通过将投影到可学习的池化矩阵上获得联合特征对关系。
公式

,。是通过池化以获得最终关节特征对关系的关节特征对关系的维数。

4. Pair Selection and Attention Allocation

只有一些面部部分对与面部识别有关,而无关的可能会导致神经网络的过度拟合。 我们需要选择相关的局部外观块特征对,因此我们选择具有前K个特征对双线性注意力得分:

公式

其中,是和的选择对具有前K个特征对注意力得分。

不同的局部外观块特征对始终具有相等的价值标度,但它们在面部识别方面提供不同的贡献。 因此,我们应该重新缩放成对的局部外观块特征,以反映它们的确实影响。 在数学上,它被建模为乘以相应的特征对双线性注意力得分。 因此,我们可以改写公式(4)为:


公式

其中和是中第对的和索引。 表示由对选择层选择的对的数量。

因为等式 (6)不是微分函数,它没有要更新的参数,并且在反向传播期间仅将梯度从后一层传递到前一层。 所选的局部外观块特征对的梯度将从后一层复制到前一层,并且通过将对应值设置为零来丢弃局部外观块特征对的下降对。

在对选择和注意分配之后,下一步将传播局部外观块特征的加权对,以提取联合特征对关系。 联合特征对关系被馈入两层多层感知器(MLP),然后是损失函数。 我们使用的最后一个完全连接层的1,024维输出向量作为最终的面部表示。

参考资料:Attentional Feature-Pair Relation Networks for Accurate Face Recognition

你可能感兴趣的:(Attentional Feature-Pair Relation Networks for Accurate Face Recognition 笔记)