表情识别(1):2017_Real-time Convolutional Neural Networks for Emotion and Gender Classification

目录

摘要

1.介绍/2.相关工作

3.模型


论文:https://arxiv.org/pdf/1710.07557.pdf

摘要

基于一个标准卷积神经网络来设置实时的CNN,在IMDB数据集上准确率为96%,FER-2013数据集上66%。

 

1.介绍/2.相关工作

目前最常用的模型都是以全连接层结尾,而全连接层通常包含了CNN模型大部分的参数。比如,VGG16在最后的全连接层包含了90%的参数。InceptionV3通过在最后添加全局平均池化操作来减少模型参数。Xception融合了2个最成功的模块:residual模块和深度可分离卷积。深度可分离卷积能够通过分离特征抽取过程进一步减少参数,并通过一个卷积层联合起来。

目前,在FER2013上表现最好的模型,【[4] Ian Goodfellow et al. Challenges in Representation Learning: A report on three machine learning contests, 2013.】有500万参数,并且最后的全连接层占了98%的参数。

 

3.模型

本论文训练了2个模型,在准确率和模型参数之间达到最好。减少模型参数,能帮助我们克服2个问题:运行速度慢,泛化。第一个模型的思路,是直接去除了全连接层。第二个模型的思路,去除全连接层的同时,融合深度可分离卷积和residual模块。2个模型我们都用ADAM优化来训练。

第一个模型,用全局池化层来代替全连接层,再加上softmax。基础模型有9个卷积层,包含60万的参数,在IMDB(46万张)性别数据集上训练,正确率96%。FER2013(3.5万)7种表情数据集,准确率66%。

第二个模型,是受Xception启发。这个模型使用了residual模块和深度可分离卷积。深度可分离卷积由深度卷积和点卷积构成。目的是将空间相关性从通道相关性中分离出来。

表情识别(1):2017_Real-time Convolutional Neural Networks for Emotion and Gender Classification_第1张图片

 

最终的模型,有4个residual模块。每一个卷积都有一个BN和Relu。最后一个卷积层后加一个全局平均池化层和softmax。这个结构有将近6万个参数,比基本模型少了10倍。模型如下,我们将之称为mini-Xception。

表情识别(1):2017_Real-time Convolutional Neural Networks for Emotion and Gender Classification_第2张图片

模型大小:855k

性别分类准确率:95%

表情分类准确率:66%

 

你可能感兴趣的:(图像处理)