人脸识别 -关键点检测:Robust Facial Landmark Detection via a Fully-Convolutional Local-Global Context Network

Robust Facial Landmark Detection via a Fully-Convolutional Local-Global Context Network

通过全卷积-局部全局语义网络实现鲁棒的关键点检测
Technical University of Munich 慕尼黑科技大学

摘要

原文 译文
While fully-convolutional neural networks are very strong at modeling local features, they fail to aggregate global context due to their constrained receptive field. Modern methods typically address the lack of global context by introducing cascades, pooling, or by fitting a statistical model. 全卷积神经网络在提取局部特征上很棒,但是感受野受限制,对于全局特征表现不好。现在的一些方法通过引入级联网络、池化、或者一个数据驱动的模型来解决这个问题。
In this work, we propose a new approach that introduces global context into a fully-convolutional neural network directly. The key concept is an implicit kernel convolution within the network. The kernel convolution blurs the output of a local-context subnet, which is then refined by a global-context subnet using dilated convolutions. The kernel convolution is crucial for the convergence of the network because it smoothens the gradients and reduces over-fitting. 本文中,我们提出了一种新的方法,直接将全局语义特征引入到全卷积神经网络中。一个关键的概念是implicit核,这个卷积核可以将局部信息模糊化,然后通过一个dilate卷积加强成一个全局信息网络。卷积核对于网络的收敛很关键,因为他可以平滑梯度,减少过拟合。
In a postprocessing step, a simple PCA-based 2D shape model is fitted to the network output in order to filter outliers. Our experiments demonstrate the effectiveness of our approach, outperforming several state-of-the-art methods in facial landmark detection. 在预处理阶段,拟合了一个基于PCA的2D模型,来对输出进行滤波。实验正面了方法的有效性。

作者总结了全卷积神经网络的优点和缺点:
优点

  1. 不受限于图像分辨率。
  2. 不需要region of interest,不需要先进行face detect。
  3. 对于没有人脸或者多张人脸的情况,都可以处理。
  4. 对于剪裁、遮挡的人脸也可以处理。
  5. 参数量比有全连接层的少。

缺点:因为感受野小,不能得到全局信息。

main contribution

  1. 提出一个卷积神经网络使用的卷积核
  2. 利用dilated convolutions空洞卷积扩大感受野
  3. 在300-W和Menpo数据集上验证了方法的有效性
  4. 验证了本文提出的关键点定位方法不依赖于人脸检测先验信息

Local-global context network

Preprocessing

数据预处理,作者推荐使用灰度图而不是RGB图,因为RGB图容易过拟合??因为是全卷积网络,所以对输入图片的大小没有要求,但是对于一个batch的,最好是一样。
对landmark ground truth的要求:每一个landmark用一个heatmap表示,GT landmark 在heatmap中是白色,背景是黑色。所以每一个heatmap最多有4个非零像素点,并且这些非零像素点加起来等于1。

Network Architecture

人脸识别 -关键点检测:Robust Facial Landmark Detection via a Fully-Convolutional Local-Global Context Network_第1张图片
网络包括4个部分

  1. 全卷积层组成的局部语义部分
    普通的全卷积层,后面接着一个线性的1x1的卷积来补偿BN

  2. 卷积核
    设计这个卷积核的目的有两个,一是将像素级的loss和预测值与ground truth的距离联系起来,二是后面的全局语义层可以利用空洞卷积而不是dense卷积

  3. 空洞卷积层组成全局语义部分

  4. 训练的loss

你可能感兴趣的:(人脸识别)