人脸识别-Pose(2):Dynamic Feature Learning for Partial Face Recognition

Dynamic Feature Learning for Partial Face Recognition

使用动态特征学习进行部分人脸识别

2018 CVPR 中科院自动化所智能感知与计算研究中心

摘要

原文 译文
Partial face recognition (PFR) in unconstrained environment is a very important task, especially in video surveillance, mobile devices, etc. However, a few studies have tackled how to recognize an arbitrary patch of a face image. 非限制条件下的部分人脸识别PFR仍然是一个重要的任务,尤其是视频监控、移动设备。但是,一些研究转向了如何识别人脸图片中任意的部分图片。
This study combines Fully Convolutional Network (FCN) with Sparse Representation Classification (SRC) to propose a novel partial face recognition approach, called Dynamic Feature Matching (DFM), to address partial face images regardless of size. Based on DFM, we propose a sliding loss to optimize FCN by reducing the intra-variation between a face patch and face images of a subject, which further improves the performance of DFM. 本文将全卷积网络和稀疏表示分类结合,提出一种新的部分人脸识别方法,成为动态特征匹配DFM,以解决任意尺寸的部分人脸识别问题。在DFM基础上,提出一种适用于全卷积网络的损失函数sliding loss。
The proposed DFM is evaluated on several partial face databases, including LFW, YTF and CASIA-NIR-Distance databases. Experimental results demonstrate the effectiveness and advantages of DFM in comparison with state-of-the-art PFR methods. 本文提出的方法在LFW YTF CASIA 数据集上做个测试,结果表明本文的方法在速度和精度上都超过了目前的水平

main contribution

  1. 提出一个部分人脸识别方法:利用全卷积网络进行动态特征匹配,并结合稀疏特征分类,在速度和精度上达到state-of-the-art的水平;
  2. 动态特征匹配模块不仅可以处理正脸,也可以处理部分脸,并且输入图片的尺寸是任意的,不需要人脸对齐;
  3. 针对动态特征匹配,提出一种sliding loss,对任意输入的图片学习更加利于分辨的特征。

本文方法

Fully Convolutional Network全卷积网络

现在的这些卷积神经网络方法一般包括卷积层和全连接层等,但是全连接层对输入图片的尺寸有限制,只能接受固定尺寸的照片。所以想要处理任意尺寸的照片需要摒弃全连接层,只用卷积层。
现有的facenet vgface等,需要先对输入图片resize到网络能接收的大小,这样势必对原图进行了破坏,要么信息丢失,要么信息变形,所以用FCN可以保持原图的信息

Dynamic Feature Matching动态特征匹配

这节是文章的重点,详细描述了部分人脸是如何进行动态特征匹配的。
首先,用一个FCN来提取特征图。
Probe:给定一张测试图,用FCN得到的特征图 p p p,大小为 w ∗ h ∗ d w*h*d whd
Gallery:给定一张底库图,用FCN得到最后一层的特征图 G G G,大小的话默认大于 p p p。然后通过滑动,得到和 p p p一样大小的若干个子图 [ g c 1 , g c 2 . . . g c k ] [g_{c1},g_{c2}...g_{ck}] [gc1,gc2...gck]
这样尺寸标准化后,就可以将 p p p [ g c 1 , g c 2 . . . g c k ] [g_{c1},g_{c2}...g_{ck}] [gc1,gc2...gck]中的每一个子图进行特征比较。
然后,作者将特征匹配的问题,就转化为 p p p如何由 [ g c 1 , g c 2 . . . g c k ] [g_{c1},g_{c2}...g_{ck}] [gc1,gc2...gck]线性表示的重构误差问题。计算 p p p G = [ g c 1 , g c 2 . . . g c k ] G=[g_{c1},g_{c2}...g_{ck}] G=[gc1,gc2...gck]的相似度,用 w c w_{c} wc表示,那么重构的误差就可以看作是特征匹配的得分,通过最小化重构误差来求解 w c w_{c} wc,误差可以表示为:
L ( w c ) = ∣ ∣ p − G c w c ∣ ∣ 2 2 L(w_{c})=||p-G_{c}w_{c}||_{2}^{2} L(wc)=pGcwc22
为了更好的求解 w c w_{c} wc,作者引入了2个约束项
Sparse constraint 稀疏约束
∣ ∣ w c ∣ ∣ 1 ||w_{c}||_{1} wc1
Similarity-guided constraint 相似性引导约束
作者指出,上面的重构过程有一个缺点:可以任意的利用子图里构建 p p p,这样会发生一种情况,就是通过明显不像的几个子图的集合也能达到重构误差最小的情况。所以提出相似性约束,即优先选择和 p p p像的子图来重构,剔除和 p p p不像的子图。 p p p G c G_c Gc的余弦相似度为
c o s < p , G c > = p T G c ∣ ∣ p ∣ ∣ ∣ ∣ G c ∣ ∣ cos<p,G_c>=\frac{p^{T}G_c}{||p||||G_c||} cos<p,Gc>=pGcpTGc
上面的稀疏约束已经使得, ∣ ∣ p ∣ ∣ = 1 ||p||=1 p=1 ∣ ∣ G c ∣ ∣ = 1 ||G_c||=1 Gc=1,所以 p p p G c G_c Gc的余弦相似度可以直接表示为 p T G c p^{T}G_c pTGc
并且,理论上 p p p g c i g_{c_i} gci越像,那么 g c i g_{c_i} gci被选中的概率就越大,所以 w c w_c wc p T G c p^{T}G_c pTGc是正相关的。
所以,相似性引导约束可以表示为 p T G c w c p^{T}G_cw_c pTGcwc

那么,最终的重构误差表示为:
L ( w c ) = ∣ ∣ p − G c w c ∣ ∣ 2 2 − α p T G c w c + β ∣ ∣ w c ∣ ∣ 1 L(w_{c})=||p-G_{c}w_{c}||_{2}^{2}- \alpha p^{T}G_cw_c + \beta ||w_{c}||_{1} L(wc)=pGcwc22αpTGcwc+βwc1
L ( w c ) = 1 2 w c T G c T G c w c − ( 1 + α 2 ) p T G c w c + β 2 ∣ ∣ w c ∣ ∣ 1 L(w_{c})=\frac{1}{2} w_c^TG_c^TG_cw_c- (1+\frac{\alpha}{2}) p^{T}G_cw_c + \frac{\beta}{2}||w_{c}||_{1} L(wc)=21wcTGcTGcwc(1+2α)pTGcwc+2βwc1
作者说,利用特征-符号搜索算法可以从上式得到 w c w_c wc。然后,得到了 w c w_c wc,就可以计算到底哪个 c i c_{i} ci p p p最像。
m i n   r c ( p ) = ∣ ∣ p − G c w c ∣ ∣ 2 − α p T G c w c min\ r_c(p)=||p-G_{c}w_{c}||_{2}- \alpha p^{T}G_cw_c min rc(p)=pGcwc2αpTGcwc

Sliding loss

然后,既然有了重构误差,显然就可以通过这个误差计算网络的loss。动态特征匹配,将图像分割成了这么多块,那么在计算loss的时候也根据这个动态匹配的特性,分块计算loss。
人脸识别-Pose(2):Dynamic Feature Learning for Partial Face Recognition_第1张图片
Sliding Loss定义为:
L ( w c , θ ) = y c ( ∣ ∣ p − G c w c ∣ ∣ 2 − α p T G c w c ) + β ∣ ∣ w c ∣ ∣ 1 L(w_c,\theta)=y_c(||p-G_{c}w_{c}||_{2}- \alpha p^{T}G_cw_c)+\beta ||w_{c}||_{1} L(wc,θ)=yc(pGcwc2αpTGcwc)+βwc1
y c = 1 y_c=1 yc=1,即 p p p G c G_c Gc来自于同一类,最小化 ∣ ∣ p − G c w c ∣ ∣ 2 − α p T G c w c ||p-G_{c}w_{c}||_{2}- \alpha p^{T}G_cw_c pGcwc2αpTGcwc;
y c = − 1 y_c=-1 yc=1,即 p p p G c G_c Gc来自于不同类,最小化 − ( ∣ ∣ p − G c w c ∣ ∣ 2 − α p T G c w c ) -(||p-G_{c}w_{c}||_{2}- \alpha p^{T}G_cw_c) (pGcwc2αpTGcwc)

Optimization 优化

作者提出,先固定 θ \theta θ,优化 w c w_c wc;然后固定 w c w_c wc,优化 θ \theta θ的策略。
人脸识别-Pose(2):Dynamic Feature Learning for Partial Face Recognition_第2张图片

实验

网络、参数

网络结构:backbone是VGGFace使用的网络,将所有的非卷积层去掉,最终得到了13个卷积层,最后一个池化层 p o o l 5 pool5 pool5作为提取的特征。
train and test:作者用的框架是MatConvert(+_+)。训练用的是CASIA-WebFace数据集,2000个id,每个id包括一张任意尺寸的照片和5张整体照片。batch=20, lr=10e-4。超参数 α = 0.6 , β = 0.4 \alpha = 0.6 , \beta=0.4 α=0.6,β=0.4
Evaluation Protocol:用累积匹配特性曲线CMC curve和ROC曲线来表示。

LFW实验

作者在LFW数据集上做了5个实验…膜拜
1 和现有方法对比
人脸识别-Pose(2):Dynamic Feature Learning for Partial Face Recognition_第3张图片
主要体现,本文的DFM方法比MR-CNN和原始的VGGFace好。和VGGface的对比,想表示的是用全卷积神经网络,来处理任意尺寸的图片比把图片resize到固定尺寸好,说明resize到固定尺寸会对图片进行不好的形变
2 face verification on LFW
人脸识别-Pose(2):Dynamic Feature Learning for Partial Face Recognition_第4张图片
从人脸验证的 tpr-fpr曲线和速度上进行对比,精度上全面领先,速度0.19s也还可以。
3 在全部照片和部分、全部混合照片中的验证
Gallery不变
probe1:1000个holistic faces
probe2:500个随机的部分人脸和500个holistic
probe3:1000个随机的部分人脸
人脸识别-Pose(2):Dynamic Feature Learning for Partial Face Recognition_第5张图片
说明随着部分人脸越来越多,识别越来越低。
4 部分人脸的区域、大小的影响
最有意思的部分来了,部分人脸,究竟多少算是部分呢?作者将部分区域的比例做为一个变量来研究就行占整张脸多大区域怎么的影响。实验结果表明,区域越少,识别率越低,这和感觉是差不多的,区域越小,有用的信息就越少,那么识别率越低。
人脸识别-Pose(2):Dynamic Feature Learning for Partial Face Recognition_第6张图片

那么,人脸的区域对识别有没有影响?只保留眼睛部分、嘴巴部分、左边、右边等等。
实验结果很有趣,带眼镜的上半部分face识别率越大于下半部分,左半部分和右半部分差不多。
人脸识别-Pose(2):Dynamic Feature Learning for Partial Face Recognition_第7张图片
这组实验还有挺有趣的。
5 超参数实验
对于文章中的 α \alpha α β \beta β,作者也做了实验寻找最优值,最终的结果是 α = 2.1 , β = 0.1 \alpha=2.1 ,\beta=0.1 α=2.1β=0.1时最好,但是对于 β \beta β这个值,作者是在[0.1,1]中选择的,是不是会出现在[0,0.1]中呢,不知道为什么作者能确定。

CASIA-NIR-Distance and Partial-YTF

作者除了在LFW外,又找了两个数据集做了一下。

总结

作者针对部分人脸识别提出了一种动态特征匹配的方法,作者的一个亮点在于没有用全连接层的特征,而是用了全卷积层,直接用全卷积层的特征图作为特征匹配,这样也避免了将图片resize到固定尺寸带来的图片形变等干扰。

你可能感兴趣的:(人脸识别)