论文笔记(微表情识别):Micro-Attention for Micro-Expression Recognition

限制微表情识别准确性的两个方面:
(1) 面部小局部区域微表情的存在
(2) 可用数据集大小的局限性(目前许多微表情数据集都远小于喂入网络的其他数据集,这可能会导致眼中的过拟合问题)

为此,本文提出了一种微注意力与残差网络想结合的新的注意力机制。
(此种整合可以减少参数数量)

特征工程的方法更适合离线,端到端的方法更适合快速、实时、线上的场合。
(本文运用的是基于深度学习思想的用于微表情识别的端到端网络,在训练上实行了迁移学习减轻过拟合)

另:迁移学习对于使用源领域的知识来帮助目标领域的学习非常有用,尤其当目标规模很大时数据集太小而无法训练网络时。(解决了上面(2)的局限性)

一、方法
总述:
(1) 使用ResNet网络作为基本架构;
(2) 每个residual block中集成了一个新的微注意单元(专注于表现出微表情的面部区域);
(3) 使用迁移学习训练网络(减轻过拟合风险)。

1.ResNet
本文设计了十个残差块,每个块添加一个attention单元
一个残差块如下图所示:
论文笔记(微表情识别):Micro-Attention for Micro-Expression Recognition_第1张图片
2. Micro-Attention Unit(微注意单元)
设计此单元时要考虑三个因素:
a.注意单元可训练;
b.不会增加明显的参数;
c.学习注意单元时结合残差方案。
论文笔记(微表情识别):Micro-Attention for Micro-Expression Recognition_第2张图片
虚线部分为一个微注意单元。
(1) 输入X会经过三个卷积层:Conv1×1、Conv3×3、Conv3×3,分别经过卷积核1×1、3×3、5×5得到三个特征矩阵:
在这里插入图片描述
(2) 在微注意单元中,使用通道级联来计算得到一个矩阵:
在这里插入图片描述
(3) 用1×1卷积核及通道平均得到平均特征图:
在这里插入图片描述
在这里,W*是1×1卷积层要去学习的权重矩阵,其中:
在这里插入图片描述
是(2)中矩阵的通道数。
(4)当前残差块输出为:
在这里插入图片描述
则最后加上微注意块的整个模块输出O(X)为:
论文笔记(微表情识别):Micro-Attention for Micro-Expression Recognition_第3张图片
T(X)*M(X)表示注意力计算,当没有明显学习原始输出T(X)的注意力区域时,M(X)接近于0。

3.transfer learning(迁移学习)
论文笔记(微表情识别):Micro-Attention for Micro-Expression Recognition_第4张图片
(1) 首先用ImageNet数据集初始化原始的ResNet(此时的ResNet还没有添加微注意单元);
(2) 然后,由于目标识别(ImageNet)和面部表情识别之间的差异,该网络在几种流行的宏表达数据集上进一步进行了预训练;
(3) 最后添加微注意单元用微表达数据集进行训练进一步微调参数。

二、实验阶段
本文实验使用了三个微表情数据集:CASMEII , SAMM ,SMIC
1.数据准备
为避免不同数据集之间的类别偏差,使用了两个策略:
(1) 将CASME II和SAMM一起用于跨数据集验证时,将每个数据库中的视频片段重新分为5种情感类型:幸福,惊讶,愤怒,厌恶和悲伤,而最初标记为恐惧和其他情绪的数据并未使用;
(2) 分别使用这三个数据库时,CASMEII和SAMM中的数据也重新分为5类,而SMIC中的数据类别保持不变。

CASMEII和SAMM数据库为每个视频片段的开始,顶点和偏移帧提供了标签,对于SMIC,未标记顶点帧,我们将每个视频片段中间的帧用作估计的顶点帧。给定一个顶点框,AAM(文献引用第40篇)用于自动定位和分割面部区域,并将处理后的图像进一步标准化为224×224像素。

在预训练中,使用了4种流行的宏表达数据集,即CK +,Oulu-CASIA NIR&VIS面部表情,Jaffe 和MUGFE 。

2.参数设置
在ImageNet 初始化之后,在预训练阶段,使用动量为0.9的批次梯度下降,批次大小设置为50,学习率初始化为0.01,同样的网络参数将用在加入微注意单元后的微调训练和测试中。

你可能感兴趣的:(论文阅读笔记,深度学习,计算机视觉)