人脸表情系列:论文阅读——A Compact Deep Learning Model for Robust Facial Expression Recognition

这篇论文task是表情识别,给出两个模型:

1. frame-based model:基于一张图像,compact CNN进行表情识别;

2. frame-to-sequense model:基于序列图像而不是单张图像,主体包括两部分:上文提到的提取特征的CNN网络和进行识别的Gated Recurrent Neural Network,其实就是在单张图像的识别基础上利用了序列信息,进一步提高了准确率。

先看第一个模型,CNN的结构非常简单,如下图所示:

人脸表情系列:论文阅读——A Compact Deep Learning Model for Robust Facial Expression Recognition_第1张图片

该网络有几个特点:

1. 非常浅的网络,在一个最大池化(max pooling)前叠加两个卷积;

2. 卷积核比较大(5*5),具有较大的感受野,每一个池化后感受野应该是18,两次后为36;

3. 减少全连接层的神经元个数,减少了参数同时保证了准确率。

根据感受野推断出feature maps大小变化过程为:96—92—88—44—40—36—18,然后进入全连接层,得到一组概率值。

在此基础上,如果具有了图像序列,可以使用第二个模型:

基于图像序列的表情识别可以看作是一序列图像到一组概率值的映射,可以用下式表示:

S表示该映射的模型也就是网络,\theta为其参数。本文中S的输入不再是从x_{i}^{1},...,x_{i}^{T}的序列图像,而是一组从CNN中得到的概率分布,如下图所示:

其中,F(x_{i}^{1}),...,F(x_{i}^{T})就是根据序列图像得到的序列概率分布,从1到T的每个时刻t都有对应的一个概率分布也就是样本属于m个表情类别的m个概率值,F(x_{i}^{t})可表示为:,用来代替一般FER中提取出的特征输入到S中。

S表示映射模型,是一个Gated Recurrent Neural Network,因为输入的不再是图像而是概率分布,用一个很浅的结构即可,如下图所示:

人脸表情系列:论文阅读——A Compact Deep Learning Model for Robust Facial Expression Recognition_第2张图片

由图可知,就是在一个序列中的每张图像通过上文CNN进行识别后,把它们的概率分布输入Gated Recurrent Neural Network中进一步识别,就是在单个识别的结果上进一步提高精度,因为一个图像序列中non-peak expression占比很高,预测结果并不理想。这两个模型的准确率如下:

人脸表情系列:论文阅读——A Compact Deep Learning Model for Robust Facial Expression Recognition_第3张图片

人脸表情系列:论文阅读——A Compact Deep Learning Model for Robust Facial Expression Recognition_第4张图片

其中,Ours-frame就是基于图像帧的第一个CNN模型,Ours-frame2seq就是第二个基于图像序列的序列模型,两者都有很好的效果,尤其Ours-frame的结构非常简单。

 

 

 

 

 

 

 

你可能感兴趣的:(Machine,Learning,Deep,Learning)