人脸表情系列:论文阅读——Facial Expression Recognition by De-expression Residue Learning

task是表情识别,将一张图像视为两部分组成:expressive component和neutral component。从一张图像中生成该个体的无表情图像称为de-expression learning procedure,则这个过程中逐步抛掉的就是expressive component。既然是抛掉的部分,如何使用呢?本文借助同尺寸的两组feature maps,得到两者间的差也就是被抛掉的expressive component,这就是残差学习/residue learning的意思。

该方法着重解决了identity information给表情识别带来的问题,因为生成的图像和输入图像仅在表情上有所改变,无论是图像整体的光照还是个体的面部信息,都未发生改变,这样用于识别的残差就受这些因素影响很小。

网络结构如下图所示:

人脸表情系列:论文阅读——Facial Expression Recognition by De-expression Residue Learning_第1张图片

整个结构分为两部分,首先是一个cGAN的结构(上图的长方形框部分):输入是一对图像< I_{input},I_{target}>,经过Generator生成与输入对应的无表情图像I_{output},再由Discriminator判别I_{target}I_{output};第二部分使用了Generator中的feature maps获取残差,然后通过cnn进行表情识别。

第一部分判别器和生成器的目标函数如下:

人脸表情系列:论文阅读——Facial Expression Recognition by De-expression Residue Learning_第2张图片

人脸表情系列:论文阅读——Facial Expression Recognition by De-expression Residue Learning_第3张图片

Generator的目标函数中还包括了I_{target}I_{output}的L1 loss。训练中,先优化cGAN,然后保持其参数不变,对下面的cnn进行优化。在下面表情分类的网络中,共有4个子网络,分别在2,4,8,16四个尺寸上获取残差进行分类得到四个loss,然后四个全连接层的结果进行concatenate后再次分类得到loss 5。这五次分类准确率如下图所示:

人脸表情系列:论文阅读——Facial Expression Recognition by De-expression Residue Learning_第4张图片

可以看到,在分类子网络cnn相同时(说明感受野相同),尺寸越大的feature maps保留了越多的表情信息。但也可能不是尺寸产生的影响,而是所保留expressive information的不同:如果是生成器的前半段,feature maps尺寸越大,越靠近输入图像,也就是表情信息还未过滤掉,feature maps中还包含很多;如果是生成器后半段,feature maps尺寸越大,越靠近输出图像,此时表情信息已经接近没有了。因此尺寸大的feature maps之间的残差是最能表征expressive information的。但由上图可知,即使是CNN-4也就是尺寸最小的部分,也有一定的分类功能,并没有完全过滤掉表情信息,因此进行concatenate后再次分类是有必要的。

但是表情过滤不彻底可能有一部分来自于生成器中的连接,如下图所示:

人脸表情系列:论文阅读——Facial Expression Recognition by De-expression Residue Learning_第5张图片

在Decode过程中,每一次都concatenate了Encode过程中得到的同尺寸的feature maps,应该是为了丰富图像本身的信息,保证生成图像尽可能在除去表情的部分接近输入图像。但是Encode中的feature maps都是包含了不少表情信息的,这就导致表情信息再一次融合到了生成图像中,还是会产生干扰,感觉有点矛盾。生成图像效果如下:

人脸表情系列:论文阅读——Facial Expression Recognition by De-expression Residue Learning_第6张图片

包含背景的图像中,面部边界有些模糊,但表情部分效果还不错。

你可能感兴趣的:(Machine,Learning,Deep,Learning)