【论文阅读】Facial Motion Prior Networks forFacial Expression Recognition

【论文阅读】Facial Motion Prior Networks forFacial Expression Recognition_第1张图片


Fig.1 显示了拟议的FMPN框架的体系结构,该框架由三个网络组成:面部运动掩码发生器(FMG)、先验融合网络(PFN)和分类网络(CN)。构建FMG是为了生成一个掩码,即人脸运动掩码,它突出显示给定灰度表情人脸的运动区域。PFN的目标是将原始输入图像与FMG生成的人脸运动掩码融合,将局部知识引入到整个框架中。CN是一种典型的卷积神经网络(CNN),用于特征提取和分类,如VGG、ResNet或Inception。

面部表情是由面部肌肉收缩引起的,相同表情,不同的人具有相似的模式。因此,对于一种特定类型的面部表情,我们将肌肉运动区域建模为表情脸与其对应的中性脸之间的差异,而相似性特征则通过平均相同表情类别中,所有训练实例的上述差异来建模。如下式:

【论文阅读】Facial Motion Prior Networks forFacial Expression Recognition_第2张图片

 \xi(.)代表人脸对齐,因为掩码是中性脸与表情脸之间的绝对误差。\varphi(.)代表直方图均衡化。

下图显示了CK+中七个基本表情生成的真值掩码

【论文阅读】Facial Motion Prior Networks forFacial Expression Recognition_第3张图片

利用上述的真值掩码去训练FMG,损失函数如下:

【论文阅读】Facial Motion Prior Networks forFacial Expression Recognition_第4张图片

有人可能会问,为什么我们不直接使用computed-ground truth掩码进行面部表情识别,而要学习生成面部运动掩码。一个主要原因是,在测试过程中,我们不知道应该选择哪种地面真实表情掩码,因为不同的表情有不同的面部运动掩码。我们还想指出,考虑到不同数据集具有相同表情的表情人脸具有相似的运动肌肉,从一个数据集获得的真实运动掩码很可能适用于另一个数据集。这有助于克服某些数据集可能不包含用于计算基本真实掩码的成对表情和中性面孔的困难。 

先验融合网络(PFN)设计用于自动使用原始输入人脸和从FMG学习的人脸运动掩模掩盖的人脸。前者提供整体特征,后者强调活动区域,具体地说,它可以写为:

【论文阅读】Facial Motion Prior Networks forFacial Expression Recognition_第5张图片

PFN之后,融合后的输出将被送入基于CNN的分类网络,该网络可以是VGG、ResNet或其他网络。利用交叉熵损失对分类网络进行训练

【论文阅读】Facial Motion Prior Networks forFacial Expression Recognition_第6张图片 

整个网络的损失函数为:掩码损失+分类损失。

结果

【论文阅读】Facial Motion Prior Networks forFacial Expression Recognition_第7张图片 

 


 

你可能感兴趣的:(cnn,深度学习,机器学习)