[论文笔记][表情识别]Occlusion Aware Facial Expression Recognition

Occlusion Aware Facial Expression Recognition Using CNN With Attention Mechanism

Date: July 6, 2022
Topic: Occlusion
Where: TIP
Year: 2019

主要问题：真实环境中可能出现表情遮挡问题。此前大部分模型是在controlled face（大多数数据集都是由CK+ , MMI , OuluCASIA实验环境下得到的表情）上得到的结果

提出含注意力机制的卷积神经网络，可以构想出遮挡区域，并且将”注意力“集中在未遮挡的部分上。

此网络混合人脸中感兴趣的区域多种表示，每一种表示都有对应的权重。

含注意力机制的卷积神经网络有两种版本，一种是全局-局部的注意力机制（global–local-based ACNN），一种是基于patch的注意力机制（patch-based ACNN）。

人们在生活中遇到遮挡物时，会把注意力集中在未遮挡的部分，或者是关注与遮挡部分对称或紧密相关的部分。

如图中小女孩用手遮挡了嘴巴，因此后三个部分得到的权重较低，特别是最后一个部分，手指完全遮住了嘴巴，无法判断表情，则权重极低。

pACNN：根据图片的landmark的位置把最后一层卷积层输出的特征图分割成多个patch，对于每个patch，PG-Unit学习给每个patch对应的权重。
gACNN：同时整合local和global的表示，GG-Unit给每一个全局表示一个权重。

Overview

Patch Based ACNN

Region Decomposition：首先检测出人脸中68个landmark，在这68个点中，选择或者重新计算24个更为重要的点，包含人脸的眼睛，鼻子，嘴巴，眉毛四个关键部位。
Occlusion Perception With Gate Unit：
1. 被选择出来的裁剪后的特征图送入两层卷积层（不改变空间分辨率）
2. 最后一层特征图送入两个分支
  1. 第一个分支将输入的特征图编码成局部特征向量
  2. 第二个分支包含Attention Net使用一个标量取估计local patch的重要性。
  数学表示如下：

Global-Local Based ACNN

pACNN用于捕获局部面部特征，gACNN用于捕获全局面部特征

Integration With Full Face Region:
- Global-Local Attention可以帮助推断局部特征
- Global-Local Attention可以看作一种类型 ensemble learning（集成学习）
Global-Gated Unit (GG-Unit)
- 第一个分支将输入的特征图编码成全局特征向量
- 第二个分支包含Attention Net使用一个标量取估计global patch的重要性。