[表情识论文]Distract Your Attention: Multi-head Cross Attention Network for Facial Expression Recognition

1. 摘要: 

 提出了一种新颖的面部表情识别网络,称为分散注意力网络(DAN)。我们的方法实现了多个交叉注意力头,并确保他们捕捉表情的不重叠的有用的部分。我们的方法基于以下两个观察结果提出来的。

  • 首先,多个类别的人有着本质上相似的面部外观,他们之间只有细微差异。
  • 其次,面部表情通过多个面部区域同时表现出来,识别需要一个 通过对局部特征之间的高阶交互信息进行编码来实现整体 的方法。

为了解决这些问题,提出了具有三个关键组件的DAN:特征聚类网络(FCN),多头交叉注意网络(MAN)注意融和网络(AFN)

FCN通过采用large-margin学习目标来最大程度地提高类可分离性,从而提取鲁棒的特征。此外,MAN实例化一些注意力头,以同时关注多个面部区域并在这些区域建立注意力图。而在将注意力图融和到一个全面的图谱之前,AFN会将这些注意力分散到多个位置。在三个公共数据集 (包括AffectNet,RAF-DB和sfet 2.0) 上进行的大量实验验证了所提出的方法始终如一地实现了最先进的面部表情识别性能。 

2. 介绍:

 我们提出了一个分散注意力网络(DAN。我们的方法实现了多个交叉注意头,并确保它们捕捉面部表情不重叠的重要区域。具体地说,我们提出了三个子网,包括特征聚类网络(FCN)、多头部交叉注意网络(MAN)和注意力融合网络(AFN。我们首先提取和聚类我们的基本特征嵌入FCN,其中引用了affinity loss用来增加类间距离,减少类内距离。在此基础上,构建了一个同时关注多个面部区域的MAN模型,其中采用了多个交叉注意力头,每个交叉注意力头由“一个空间注意单元和一个通道通道单元”组成。最后,将注意力图馈送到AFN以输出类得分。具体来说,我们在AFN中设计了一个partition loss,知道各个注意力分支关注不同的面部区域。个注意力模块只能集中在一个较粗糙的图像区域,而忽略了其他重要的面部区域相反,我们提出的DAN设法同时捕获几个重要的面部区域。 

3. contribution

  1. 我们证明了单一的注意力模块不足以捕捉不同表情之间所有细微而复杂的外观变化。针对这一问题,提出了MAN和AFN算法来捕获多个不重叠的局部注意力,并将其融合以编码局部特征之间的高阶交互。
  2. 为了最大化类的可分性,我们提出了一种简单而有效的特征聚类策略FCN,同时优化类内差异和类间margin。这为后续的表征学习提供了高质量的主干特征。

4. Method

流程:首先,FCN接收一批人脸图像,输出具有类别区分能力的基本特征。然后,MAN捕获多个局部人脸表情区域。然后,这些注意力图被AFN显式地训练以聚焦于不同的区域。最后,AFN融合上述注意图,并对输入图像的表情类别进行预测。特别地,所提出的MAN包含一系列重量轻但有效的交叉注意头。空间注意单元包括各种大小的卷积核。通道注意单元连接到空间注意单元的末端,以通过模拟编码器-解码器结构来加强注意图。空间注意力和通道注意力单元都被集成回输入特征。整个过程如图2所示。 [表情识论文]Distract Your Attention: Multi-head Cross Attention Network for Facial Expression Recognition_第1张图片

4.1 Feature Clustering Network (FCN)

resnet-18作为基本网络。不同表情存在相似性特征,因此,提出了一个affinity loss,来最大化类间间隔。和center loss类似,在每个epoch中,让特征向他们所属的类中心移动。同时为了保持良好的可分性,将不同类的中心分开。

4.1.1 Affinity Loss

提出了一种损失,以最大化类间距离,同时最小化类内距离,其可以写为:

我们的FCN学习到更好质量的特征聚类,并且不同类别之间的边界清晰。

 [表情识论文]Distract Your Attention: Multi-head Cross Attention Network for Facial Expression Recognition_第2张图片

4.2 Multi-head cross Attention Network (MAN)

MAN包含多个并行的交叉注意头,它们彼此保持独立。如图4所示,交叉注意头是空间注意单元和通道注意单元的组合。空间注意单元从FCN接收输入特征并提取空间特征。然后,空间特征输入到通道注意单元来提取通道特征。来自上述两个维度的特征最终被隐式地组合成注意力图。MAN的输出为四个一维特征向量。

[表情识论文]Distract Your Attention: Multi-head Cross Attention Network for Facial Expression Recognition_第3张图片 

空间注意单元:包括四个卷积层和一个激活函数。构造了1×1、1×3、3×1和3×3卷积核来捕获多个尺度上的局部特征。

通道注意单元:它由两个线性层和一个激活函数组成。我们利用两个线性层来实现一个小型的自动编码器来编码通道信息。

4.3 Attention Fusion Network (AFN)

MAN所生成的注意力图能够捕捉到不同局部区域的特征,但是这几个注意力分支很可能关注的是同一个区域,为了让不同的分支关注不同的区域,并将各个分支的特征信息融和,作者设计了注意融和网络(AFN)。首先,AFN通过log softmax函数来缩放注意力图,强调最感兴趣的区域,然后,作者提出了一个partition loss,指导各个注意力分支关注不同的关键区域,避免重叠。最后将4个分支的输出结果合并为一个,计算分类结果。

4.3.1 Partition Loss

分区损失使注意力图之间的方差最大化。partition loss可以写为:

5. 实验:

 [表情识论文]Distract Your Attention: Multi-head Cross Attention Network for Facial Expression Recognition_第4张图片

6. 总结:

本文提出了一种鲁棒的面部表情识别方法,该方法由三个新颖的子网络组成,包括特征聚类网络 (FCN),多头交叉注意网络 (MAN) 和注意融合网络 (AFN)。具体来说,FCN学习最大限度地提高backbone面部表情特征的类可分离性,MAN捕捉多个不同的注意力,而AFN惩罚重叠的注意力并融合所学习的特征。在三个基准数据集上的实验结果证明了我们的FER方法的优越性。我们希望我们对特征聚类和学习多种关注的探索将为面部表情识别和其他相关视觉任务的未来研究提供启示。

你可能感兴趣的:(人工智能,深度学习)