人脸表情系列——人脸表情识别(Facial Expression Recognization/FER)

最近看了几篇关于表情识别的论文,稍微记录一下。

综述推荐一篇CVPR2019的:Deep Facial Expression Recognition: A Survey

基于深度学习的表情识别流程为:人脸识别+表情分类

目前存在的问题:1. 相比于目标检测,人脸识别等任务数据不足,容易过拟合;2. 受光照等外界条件影响大;3. 类内差大(不同个体的脸部特征和表情不同,也就是论文经常提到的identity information会带来影响;另一方面姿态不同加强了识别难度,一个个体的不同pose信息过少,数据集中基本只有正面图像);4. 相比于人脸识别,表情更加抽象细微。

目前针对这些难点有几篇不错的比较新的论文:

1. Joint Pose and Expression Modeling for Facial Expression Recognition

主体是利用CGAN生成多姿态和表情的人脸图像,实现数据增强以提高表情识别正确率。CGAN的结构比较特殊,生成器为一个autoencoder,编码部分得到输入图像的identity representation,pose和expression作为条件在编码和解码中间加入,解码部分基于三者concatenate的code生成指定pose和expression的人脸图像。判别器有两个,一个用于判别编码得到的identity representation,使其更加平滑;另一个判别解码生成的人脸图像,使其和输入图像更加一致。同时表情分类器也对生成图像进行表情识别,得到的loss也参与GAN的更新。

2. Facial Expression Recognition by De-expression Residue Learning

也是以GAN为主体的网络结构,生成器也是一个autoencoder,输入人脸图像,生成该人脸的natural expression图像,认为在这个过程中实现了解耦和:neutral component和expression component。因为最终生成了natural expression,认为生成器后半部分使用的是neutral component,前半部分则是把expression component逐渐过滤,因此生成器前半部分和后半部分图像大小对应的feature maps的差就是expression component,这个理论用于一个残差网络,学习的就是两者之差即表情。

3. Photorealistic Facial Expression Synthesis by the Conditional Difference Adversarial Autoencoder 

和上面的残差法有类似的地方,从标题的difference即可看出,也是基于autoencoder的结构,输入一张表情图像先进行encode,在latent space中与target expression的label进行concatenate,再进行decode生成该表情下的图像。中间有加入short connection,该连接将整个autoencoder划分为三部分,中间一部分由于靠近latent space,具有更高级的特征,表示表情信息,是从输入图像表情到输出图像表情的转换过程,因此该部分的输入输出表示的就是两个表情的difference;而第一部分和第三部分更靠近image level,只具备低级特征,表示的是identity information。short connection保证了identity information的不变性,相当于残差结构中的旁支,残差则是刚才所说的第二部分表示的difference。

以上只是简单介绍,如果后续使用其中的理论再仔细学习吧。

 

 

 

你可能感兴趣的:(Machine,Learning,Deep,Learning)