MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition

简介

MAE-DFER出自中科院自动化所,是一篇发表在多媒体顶会ACM MM上面的一篇文章。官方代码见:https://github.com/sunlicai/MAE-DFER。

本文的动机

MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition_第1张图片

  • 现有的DFER数据集(通常在10K左右,如下表一所示,这比一般的图像/视频分类和人脸识别等研究领域要小得多,有限的训练样本严重限制了它们的进一步发展
    MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition_第2张图片

  • VideoMAE中使用的vanilla ViT编码器在微调过程中需要大量的计算,这是由于全局时空自注意力的二次成本,这在许多资源受限的场景中是负担不起的,而且只通过外形进行重建

本文的贡献

  • 提出了一种新的自监督方法MAE-DFER,利用大规模无标签人脸视频数据的自监督预训练来促进DFER的发展
  • MAE-DFER通过开发高效的LGI-Former作为编码器,并联合外观和时序面部运动掩码自编码器进行建模,改进了VideoMAE。通过这两个核心设计,MAE-DFER在具有相当甚至更好的性能的同时,大大降低了计算成本。
  • 在6个DFER数据集上的大量实验表明,MAE-DFER在显著性上优于之前最好的监督方法
    MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition_第3张图片
    MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition_第4张图片
    MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition_第5张图片
    MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition_第6张图片

模型

模型的发展

MAE

MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition_第7张图片
该模型的关键词如下:

  • ViT as backbone
  • Masked autoencoder (BEiT)
  • High mask proportion (BERT)
  • Asymmetric encoder-decoder
  • Pixel level reconstruction (BEiT)
  • Scalable

具体来说该模型使用VIT(Vision transformer)作为骨干网络,使用了掩码自编码器的技术的同时,相比与BERT有很高的掩码比率,这极大的减少参数量,同时还提升了模型的学习能力。BEIT利用tokenizer这个模型去猜测表征空间里面的向量,MAE直接基于pixel level的重建。模型是scalable的,这表明模型越大,模型的性能会得到一定的提升。

VideoMAE

MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition_第8张图片
视频可以看作是由静态图片随着时间的演化生成的,因此视频帧之间也存在语义的对应关系。如果不针对性地设计掩码策略,这种时序相关性可能会增加重建过程中的信息泄漏的风险。具体来说,如图所示,如果使用全局随机掩码或随机掩码图像帧,网络可以利用视频中的时序相关性,通过「复制粘贴」相邻帧中时序对应位置的未被遮蔽的像素块来进行像素块重建。这种情况下一定程度上也能完成代理任务,但是可能会导致VideoMAE仅仅能学习到较低语义的时间对应关系特征,而不是高层抽象的语义信息,例如对视频内容的时空推理能力。

通过时空快嵌入(cube embedding),被屏蔽立方体的在时序上相邻的邻居总是被屏蔽的。所以对于一些没有或者运动很小的立方体( (例如,图2第4行的手指立方体( d ) ),我们不能在所有的帧中找到时空对应的内容。通过这种方式,它将鼓励我们的VideoMAE在高层语义上进行推理,以恢复这些完全缺失的立方体。
MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition_第9张图片
视频可以理解为一组快速播放的图片,每一福图片由帧(frame)组成,n个连续的帧组成一个片段(clip)。VideoMAE首先从原始视频V中随机采样 t t t个片段,将片段压缩为T帧,每一帧包含 H ∗ W ∗ 3 H*W*3 HW3个像素,将采样压缩后的帧切分为 2 ∗ 16 ∗ 16 2*16*16 21616的cube,对cube使用时空联合嵌入,得到 T 2 ∗ H 16 ∗ W 16 \frac{T}{2}*\frac{H}{16}*\frac{W}{16} 2T16H16W个3D tokens,并将tokens映射到 D D D个通道维度中,使用普通ViT主干,并使用不对称encoder-decoder结构进行预训练。

模型的架构

LGI - Former是组成编码器的核心模块,LGI - Former的核心思想是在局部区域引入一组具有代表性的小标记。一方面,这些标记负责汇总局部区域的关键信息。另一方面,它们允许对不同区域之间的长距离依赖关系进行建模,并实现有效的局部-全局信息交换。
MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition_第10张图片
计算帧差信号作为时间运动标签,因为它的计算非常便宜,并且在视频行为识别中显示出有效性。为了确保预训练期间的计算成本与VideoMAE相似,我们为外观和运动分支共享解码器主干,并且只使用两个不同的线性头部来预测它们的目标。此外,解码器仅输出奇数帧的外观预测和其余偶数帧的运动预测。最后,总损失是两个分支中的均方误差的加权和。
MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition_第11张图片
MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition_第12张图片
具体思想:

  • 先将原先的3D tokens通过cube embeding分为一个个小的区域
  • 每个局部区域转换成一个个序列,并给每个序列加入一个代表性token
  • 第一步通过局部区域内的多头自注意机制,让每个代表性token学到各个区域的区域性特征
  • 第二步对每个代表性token进行多头自注意力,让每个代表性token学习到不同区域间的特征
  • 第三步将每个学习到不同区域间特征的各个小区域的代表性特征拼接回原来的各个区域特征中

实验

MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition_第13张图片
更长的预训练通常是有益的,并且性能饱和发生在大约50个Epochs。除此之外,我们还发现从头训练(即Epochs = 0 )的性能很差(近乎随机猜测)
MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition_第14张图片

  • 只有局部区域内的自注意力效果最差
  • 局部-全局交互注意力比全局区域间自注意力更有效,但全局区域间自注意力计算量很小

MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition_第15张图片
联合掩蔽的外观和运动建模对于促进DFER更好的时空表示学习是必不可少的

MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition_第16张图片
当使用2 × 5 × 10 (仅使用M = 8个representative token)的区域大小时,该模型实现了最佳的性能-计算权衡
MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition_第17张图片

  • 我们为偶数帧显示的帧差图像使用了灰色背景,并通过将偶数帧中的重建帧差图像与相邻恢复的奇数帧图像相加来显示所有的重建视频

  • 在高掩蔽率( 75 %或90 %)下,MAE-DFER仍然可以对人脸外观内容和时间运动信息产生令人满意的重建结果。值得注意的是,尽管身份信息(由于模型在预训练时没有看到这个人)发生了变化,但在有限的可视上下文(eg:开口)中进行推理可以很好地还原动态面部表情。这意味着我们的模型能够学习到有意义的动态人脸表示,从而捕获全局时空结构。

MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition_第18张图片
为了进一步定性地展示MAE - DFER相对于传统监督方法的优越性,我们在DFEW fd1上使用t - SNE对学习到的嵌入进行可视化。如图所示,我们的方法的嵌入比两个最先进的监督方法(即, IAL和Former-DFER )更紧凑和可分离,这表明MAEDFER可以通过大规模的自监督预训练来学习对不同动态人脸表情更有区分性的表示。此外,VideoMAE与我们的MAE-DFER具有相似的嵌入空间,但需要付出更大的计算成本。

总结

在本文中,我们提出了一个有效且高效的自监督框架,即MAE - DFER,以利用大量未标记的面部视频,以解决当前监督方法的困境,并促进DFER的发展。我们相信,MAE - DFER将作为一个强有力的基准,促进DFER的相关研究。未来,我们计划探索MAE - DFER (即使用更多的数据和更大的模型)的标度行为。此外,将其应用到其他相关任务(例如,动态微表情识别和面部动作单元检测)中也很有意思。

你可能感兴趣的:(论文阅读,深度学习,人工智能,论文阅读,神经网络)