人脸特征点检测:TCDCN

《Facial Landmark Detection by Deep Multi-task Learning》论文解读


这篇文章发表于ECCV2014,来自香港中文大学汤晓鸥课题组。论文原文见:

http://mmlab.ie.cuhk.edu.hk/projects/TCDCN.html

概述

文章提出了人脸特征点检测的新方法,使用与人脸相关的属性共同学习人脸的特征点位置。

we wish to optimize facial landmark detection together with heterogeneous but subtly correlated tasks, e.g.head pose estimation and facial attribute inference.

具体而言,就是在人脸特征点检测的时候,同时进行多个任务的学习,这些任务包括:性别,是否带眼镜,是否微笑和脸部的姿势。使用这些辅助的属性帮助更好的定位特征点,根据论文结果,这样的确对人脸特征点检测有一定的帮助。这种Multi-task learning的困难在于:不同的任务有不同的特点,不同的收敛速度。针对这两个问题,文章给出前者的解决办法是tasks-constrained deep model,对后者解决办法是task-wise early stopping。文章中的方法在处理有遮挡和姿势变化时表现较好,而且模型比较简单。

AT
如图,人脸特征点检测这一任务可以和多个辅助任务同时进行,对比前人的CNN和Cascaded CNN,本文具有更好的表现。

论文解读

tasks-constrained deep model

传统的多任务学习(multi-task learning)把每个任务都赋予相同的权重

argminwt=1Ti=1Nl(yti,f(xti;wt))+ϕ(wt)

损失函数就是不同任务的损失函数直接相加。而在人脸特征点检测的任务中,不同的任务具有不同的loss,特征点检测是平方和误差,而其它分类任务是交叉熵误差,因此最后的loss就是:
argminwr,{wa}12i=1Nyrif(xi;Wr)2i=1NaAλayailog(p(yai|xi;Wa))+t=1TW22

从这个式子可以看到,损失函数的前部分就是特征点检测,后部分是不同的分类任务loss相加,最后一项是正则项。在训练时,各个任务使用相同的特征,只有在最后一级才根据任务的不同做不同处理(线性回归或者分类)。值得注意的是,这个式子中的 λa 论文中并未给出具体数值,可以认为是一个超参数,需要自行调参,我估计这个数值对结果有一定的影响。

Task-wise early stopping

针对多任务学习的特点,本文提出了一种新的early stopping方法。当辅助任务达到最好表现以后,这个任务就对主要任务没有帮助了,就可以停止这个任务。那么问题来了,什么时候停止辅助任务呢?如下式所示, Eaval 是任务a的验证集loss, Eatr 是训练集loss,如果下面式子超过了某个阈值 ϵ 就会停止这个任务。

kmedtj=tkEatr(j)tj=tkEatr(j)kmedtj=tkEatr(j)Eaval(t)minj=1..tEatr(j)λaminj=1..tEatr(j)>ϵ

这里的 ϵ 又是一个超参数。训练就是反向传播,论文选择了Stochastic gradient decent。

网络结构

本文网络结构比较简单:
TCDCN
输入图片为40*40的黑白图片,然后经过4个卷积层变成2*2*64的图像,其中激活函数采用 |tanh| ,即对tanh取绝对值。在最后的全连接层将2*2*64的多层结构变成100个shared feature,以上部分都可以看成特征提取的操作。在最后一层由这些特征进行不同操作,对特征点检测问题就是linear regression,对于其他分类问题就是logistic regression(softmax)。

论文结果

多任务的有效性

人脸特征点检测:TCDCN_第1张图片
将不同任务进行结合可以有效减低error和failure rate,可见这个方法效果良好。

Task-wise early stopping的优势

人脸特征点检测:TCDCN_第2张图片
Task-wise early stopping可以连续降低验证集误差,而且也能提高收敛速度。

与Cascaded CNN相比

人脸特征点检测:TCDCN_第3张图片
不用说,也很好。文章在Intel Corei5 CPU上表现为每张图片17ms。

总结

本文方法比较简单,模型也容易搭建,重现的难点在于task-wise early stopping和几个超参数的选择,这个问题需要进一步研究。

你可能感兴趣的:(Computer,Vision,Deep,Learning,Face,Analysis,人脸识别,人脸特征点检测,深度学习,CNN)