论文笔记 Deep Facial Expression Recognition: A Survey深度面部表情识别调查

论文链接:https://arxiv.org/abs/1804.08348

面部表情是人类传达其情感状态和意图的最强烈,最自然和最普遍的信号之一。下图是面部表情识别数据库和方法的进化过程,由传统的Handcrafted 到Deeplearning。近来,DFER(Deep Facial expression Recognition)自动识别系统专注于两个重要的问题:1.由于训练数据不足产生的过度拟合,2.与表情无关的变异就像照明,头部姿势和身份偏差。这篇文章对目前流行的DFER系统进行了很好的总结,阐述了基于深度学习技术的面部识别(包括图片和视频两类)的算法。主要部分有:深度面部表情识别,面部表情数据库,FER目前发展水平。

论文笔记 Deep Facial Expression Recognition: A Survey深度面部表情识别调查_第1张图片

一:深层面部表情识别

预处理:

1.人脸对齐:给定一系列训练数据,第一步是检测面部,然后去除背景和非面部区域。  第二步面部对齐可以显着提高FER性能。 基于局部地标的坐标, 这步骤至关重要,因为它可以减少面部比例和面内旋转的变化的影响。

2.数据增强:此技术可分为两类线上和线下。线下的常用随机扰动,图像变换(旋转、评议、翻转、缩放和对齐),添加噪声(椒盐噪声和斑点噪声),以及调整亮度和饱和度,以及在眼睛之间添加二维高斯分布的噪声。还有用对抗神经网络GAN生成脸。线上的包含在训练时,裁剪图片,水平翻转。

3.人脸归一化:亮度归一化和姿态归一化。

深度特征学习

1.模型包括卷积神经网络(Convolutional neural network,CNN)、深度置信网络(Deep belief network ,DBN)、深度自动编码器(Deep autoencoder,DAE)和递归神经网络(Recurrent neural network,RNN)。

2.面部表情分类:在学习了深层特征之后,FER的最后一步是将给定的面部分类。 与传统方法相比,其中特征提取步骤和特征分类步骤是独立的,深度学习可以以端到端的方式执行FER。 具体地,将损失函数添加到网络的末端以调节反向传播误差; 那么,每个样本的预测概率可以由网络直接输出。 另一种方法是使用深度神经网络(特别是CNN)作为特征提取工具,然后将其他分类器(例如支持向量机(SVM)或随机森林)应用于分类。

二:面部表情数据库

 

论文笔记 Deep Facial Expression Recognition: A Survey深度面部表情识别调查_第2张图片

三:FER目前发展水平

静态图像FER进展

论文笔记 Deep Facial Expression Recognition: A Survey深度面部表情识别调查_第3张图片

该表显示了目前最优异的方法,在此数据集上取得的效果。

1.预训练和微调

在相对较小的面部表情数据集上直接训练深度网络容易过度拟合。 为了缓解这个问题,许多研究使用大数据从头开始预训他们的自建网络或在众所周知的预训练模型上进行微调。

论文笔记 Deep Facial Expression Recognition: A Survey深度面部表情识别调查_第4张图片

如上图,先在ImageNet数据集上训练,然后再在具体的人脸表情数据集上微调。微调有较好的效果,人脸表情识别有各种微调方式,比如分级、固定某些层,不同网络层用不同数据集微调。大型FR数据的预训练会对情绪识别准确性产生积极影响,并且使用相关的面部表情数据集进行进一步微调可以帮助提高性能。

2.多样化网络输入

SIFT、LBP、MBP、AGE, NCDV,DSAE

3.辅助块与层改进

论文笔记 Deep Facial Expression Recognition: A Survey深度面部表情识别调查_第5张图片

(a)三个不同的监督块

论文笔记 Deep Facial Expression Recognition: A Survey深度面部表情识别调查_第6张图片

(b)对表情分类层的改进,增加了类间距离island loss.

文中提出了两种变化来代替softmax损失:(1)基于指数三重态的损失(triplet-based loss)[134]被形式化以在更新网络时给予困难样本更多权重,以及(2)(N + M - 元组 群集损失[56]被正式化以减少anchor选择和阈值验证在身份不变FER的三重态损失中的难度。

论文笔记 Deep Facial Expression Recognition: A Survey深度面部表情识别调查_第7张图片

4.网络集成

两个关键点:网络模型要有充分的多样性,以确保网络之间具有互补性和可靠的集成算法。

三个广泛使用的规则适用于决策级集合:majority voting, simple average and weighted average.

5.多任务网络

论文笔记 Deep Facial Expression Recognition: A Survey深度面部表情识别调查_第8张图片

6.级联网络

论文笔记 Deep Facial Expression Recognition: A Survey深度面部表情识别调查_第9张图片

视频FER进展

1.帧聚合

因为到表情在不同时刻有不同的变化,但又不可能单独的统计每帧的结果作为输出,所以需要对一段帧序列给出一个识别结果,这就需要用到帧聚合。即用一个特征向量表示这一段时间序列。与集成算法类似,帧聚合有有两类,分别是决策级帧聚合和特征级帧聚合

2.强度表达网络

在视频中表情会有微妙的变化,而强度是指在视频中,所有帧表现某个表情的程度。一般在中间位置最能表达某个表情,即为强度峰值。大多数方法,都关注峰值附近而忽略了开始和结束时的低谷帧。

3.深度时空FER网络

RNN and C3D

论文笔记 Deep Facial Expression Recognition: A Survey深度面部表情识别调查_第10张图片

面部landmark运动轨迹

级联网络

网络集成

 

 

你可能感兴趣的:(论文笔记 Deep Facial Expression Recognition: A Survey深度面部表情识别调查)