可以将面部表情分割为肌肉的各个部分的运动,这个被称为AUs即运动单位,AUs可以有效地解决个体表达的歧义问题,并且能够提高微表情识别的性能。
2010年前后出现的数据库:Canal9、York-DDT、Polikvsky、USF-HD,这些数据集要求受试者模仿情绪,所以与微表情的自发性相矛盾。现阶段这些数据集已经不被使用。
后面出现的一些微表情数据集:SMIC、SMIC-e、CASME、CASMEII、CASME^2、SAMM等数据集,这些数据集都是在实验环境下测得的。数据集的具体信息在
图中进行展示:
本文对于MER的分类方法由基于DL的MER的组成部分来进行分类:预处理、网络输入、网络三部分。
微表情识别具有强度低、时间段、数据集规模小的问题,因此除了传统的预处理步骤外,仍需要进行运动放大、时间归一化和数据增强等操作,才能获得更好的识别精度。
现阶段各种基于深度学习的人脸检测方法已经被提出来克服人脸的变化,这些人脸检测器已经被开源到常用的开源库中,常见的有OpenCV和Dlib。另外,各种微小的姿势和运动都有可能对微表情的识别产生巨大的影响,因此,人脸对齐对微表情的识别将会产生非常重要的影响,它将检测到的人脸和参考人脸进行对齐,从而处理不同的微表情头部姿势。随着深度学习的应用,具有级联回归的网络成为性能最先进的人脸匹配方法。在微表情识别的片段中,由于头部运动很小,因此同一视频片段中的所有帧都使用相同的变换进行对齐,从而处理不同的头部姿势,以增强微表情识别的效果。
微表情的面部的运动太过于细微,难以分辨,因此,为了便于识别微表情,使用运动放大对于增强微表情的强度至关重要。常见的运动放大方法有欧拉视频放大法**(EVM),其可以放大视频中连续两帧的运动或者彩色内容,但是对于较大的运动放大级别也会导致更大的放大规模从而造成更大的位移和运动伪影。因此可以在整个视频中一致地跟踪和放大表情和全局位移的全局拉格朗日运动放大(GLMM)**被应用。此外基于学习的运动放大被应用于微表情的放大。
微表情识别除了强度低外,还面临着持续时间短和多变的挑战,尤其是处理一些帧数相对较低的数据集时这个问题时尤为明显,因此为了解决这个问题,引入了Temporal interpolation model(TIM时间插值模型),基于帧间的路径图将所有的ME需要插值到相同的指定长度。
应用TIM来应用时间归一化的时候,有如下优势:
可以通过提取ROI上的一些特征来减少没有用的信息的区域对识别精度的影响,主要有如下几种方式来提取面部的ROI:
但是,以上几种方式都是基于同一个假设,即所有的ROI块对于MER的贡献都是相等的,然而,在实际的操作中可能每一块ROI对于MER的贡献均不相同,因此也可以设计一个模型来自动学习对模型贡献最多的区域,从而提高模型的效果。
MER的挑战主要还包括现阶段并没有一个大型的ME数据集来训练一个鲁棒的模型,ME的微妙、快速和不自觉的特点也大大增加了数据集收集的难度,因此,数据扩充是非常必要的,常见的数据增强方式主要是对空间域上的随即裁剪和旋转,以下是一些常见的数据扩充方式:
ME的强度很低、持续时间短、数据量有限,基于深度学习的MER具有一定的挑战性,并且MER的性能随着输入的不同也会有不同的变化。
现有的很多研究都是针对无时间信息的静态图像进行研究的。但是考虑到静态图像的强度,科研人员探索了基于视频所有帧中面部运动强度最大的关键帧的方法。Apex spotting是建立在基于apex frames的MER系统的关键组成部分。在之前的研究中,使用光流的运动幅度随时间的变化来定位视频的起始帧、关键帧和结束帧。在之后的研究中,研究人员利用特征差异来检测长视频中的微表情。然而基于光流的方法需要复杂的特征操作,而基于特征对比的方法则忽略了微表情的动态信息。然而这些方法都是在时空领域对面部变化的检测,但是由于微表情的低强度和短暂的特性,表情沿时空领域的变化并不明显,因此模型很难在时空领域检测到关键帧。之后的研究中,研究者通过CNN来进行微表情定位,SMEConvNet首次被应用在微表情定位上,基于CNN的定位方法主要局限于小规模的微表情数据集和长视频中混合的宏微观表情片段。
微表情在空间域上的变化非常微妙,而在时间域上的变化非常快,因此各种动态输入对模型的性能影响非常大,以下是一些动态输入数据类型的样例:
现阶段,多输入的方法获得了最优秀的性能,因此更多的组合模式将是未来的研究方向。
卷积神经网络在各种计算机视觉任务中表现优异。循环神经网络(RNN)被提出处理不同长度的时间序列数据,长短期记忆网络(LSTM)被提出来解决训练RNN时可能遇到的梯度消失的问题。接下来文章从网络块、网络结构和损失方面进行了综述。
随着DL的发展,各种高效的网络块被提出,接下来文章介绍了为了解决MER问题设计的网络块。深度学习解决MER的主要瓶颈之一是较小规模的ME数据集远不足以训练一个健壮的网络。
这些网络块的示意图如下图:
目前MER的网络结构可以分为单流、多流、级联和多流级联几类,接下来介绍这几种网络结构的细节:
单流网络是最简单的基本模型结构,然而,单流网络只考虑了微表情的单个视图。为了进一步利用微表情的信息,提出了多流网络,用于学习来自多个视图的特征从而实现鲁棒的微表情识别。此外考虑到微表情在时间维度上迅速的变化,时间信息对微表情识别的影响非常巨大,因此使用级联的RNN和LSTM来利用时间和空间信息以实现更为鲁棒的识别效果。此外,可以将图形学习和迁移学习与多流级联网络相结合从而进一步提高模型的识别性能。
这些常见的网络结构如图所示:
基于图网络的表示方法对于建模微表情间的语义关系时有效的,并可以用于面部表情的识别任务。在图的定义中,有两个关键元素,即节点和边,其分别表示特征和关系。就图的表示方法可以分为基于关键点级别的图和基于AU级别的图。
在传统的分类方法中,特征提取和分类是独立进行的,而DL可以通过损失函数进行端到端的分类,在训练过程中通过惩罚预测结果与真实标签之间的偏差来优化分类的效果。大多数MER都采用softmax作为损失函数,但是softmax主要适用于正确分类且已知类别的情况下。然而在实际情况下,需要对未知的样本进行分类,因此为了获得更好的泛化能力,需要进一步优化类间差异和类内变化。
度量学习技术,如对比损失和三元组损失,通过测量输入之间的相对距离来确保类内紧密性和类间可分性。一些方法采用对抗学习策略和不等式正则化的三元组损失,以有效地收敛MicroNet的输出。然而,度量学习损失通常需要有效的样本挖掘策略,以获得稳健的识别性能。只有度量学习还不足以学习一个判别性的度量空间用于微表情。实验表明,通过在softmax损失上引入较大的边界可以增加类间差异。因此,一些方法将softmax交叉熵损失和中心损失结合起来,通过惩罚深度特征与其对应类别中心的距离,增加了类内变化的紧凑性和类间差异的可分性。由于微表情是自发的,有些特殊的微表情很难触发,导致数据不平衡。一些方法通过采用focal loss来解决数据不平衡问题,通过添加一个因子将重点放在难以分类和错误分类的样本上。另外,一些方法设计了自适应因子来平衡给定训练批次中负样本和正样本的比例。
由于微表情的低强度和自发性特点,导致了高类内变化、低类间差异和数据不平衡的问题。目前,大多数微表情识别方法都基于基本的softmax交叉熵损失,但也有一些方法采用三元组损失、中心损失或focal loss来增强类间可分性、类内紧密性和平衡学习。因此探索更有效的损失函数来学习微表情的判别性表示是一个有前景的方向。考虑到面部运动的低强度导致低类间差异,应进一步研究更好的度量空间和更大的边界损失来提高微表情的识别性能。
现实世界中的面部表情往往涉及到多种因素,例如个体身份和AU等 ,而单一MER任务无法利用到所有的信息,同时微小的面部运动也很难为模型提供足够的信息,因此可以使用基于DL的多任务学习方法来改进MER的性能。一些方法通过结合不同的辅助任务来构建端到端的网络从而提高模型的性能,例如可以将面部关键点检测和光流提取同MER结合来改进光流的特征。多任务学习可以实现在不同任务之间更好地共享知识从而提高性能并降低过拟合的风险。
DL处理MER任务会受到数据局限带来的挑战,因此通过迁移学习来利用具有标签的大规模面部数据集是一种解决方法。在迁移学习中,与MER相关的任务中预训练的模型被应用到MER任务中。目前常见的三种主要的方法为fine-tuning、知识蒸馏和领域自适应。
交叉验证是目前最广泛应用的MER性能评估方法。在交叉验证过程中,数据集会被分为多个fold,进行训练和测试的过程在不同的fold中进行,这样的方法可以保证每个样本最少被使用一次,从而实现公平的评估,防止模型在小规模数据集上过拟合。交叉验证包括LOSO、LOVO和N Fold交叉验证
在MER中,常见的评价指标是准确率和F1分数。准确率衡量正确预测和总样本的比例,但是准确率容易受到数据偏差的影响。F1分数通过考虑总体的TP、FP和FN来揭示了真正的分类性能,从而解决了偏差问题。
对于合成数据集,它们将多个数据集组合在一起,导致了严重的数据不平衡,因此通常采用无权重F1分数和无权重平均召回率来衡量各种方法的性能。
目前MER主要研究的重点是2D领域,因为相关的模态、图像和视频在数据中广泛存在,虽然近些年MER取得了一些显著性的进展,但是大多数基于2D面部图像和序列的现有的方法很难解决现实的拥有光照和姿态变化下的微表情任务。3D面部数据可以较好地解决上面的具有挑战性的问题,其对光照和姿态的变化具有鲁棒性,另外,3D信息包含面部表情识别的重要特征,可以训练更好的模型,因此基于3D序列的MER任务将会是主流的研究方向。
ME可以揭示人们的隐藏的情感,在现实世界中有非常广泛的应用。但是ME的解释存在一定的歧义,例如眉毛的抬升可能意味着惊讶或者是悲伤。面部动作编码系统 (FACS) 可以对解决歧义问题非常有效。在FACS中AU被定义为最基本的面部运动,是构成面部表情的基本单元,可通过对AU进行编码,并将AU特征进行嵌入来改善MER的效果。因此可以探索AU和ME之间关系从而提高MER的性能
过去的研究中主要针对于如下的六种基本表情:快乐、惊讶、愤怒、悲伤、恐惧和厌恶。然而,人们在日常生活中通常会产生更为复杂的情感,例如,惊讶的同时可能产生快乐或者愤怒,这样的表情被称为是复合表情。现阶段已经确认了17中复合表情,这些表情比这些要丰富得多。在MER领域,复合表情很少被研究过,虽然复合表情因为其微小的面部运动和有限的数据使得MER任务变得非常有挑战性,但是复合表情可以反映人类更复杂的情感,值得进一步的研究。
MER任务的一个挑战是低强度和小规模的数据集很难为MER任务提供非常多的信息。利用多模态的数据可以提供互补信息并增强分类的鲁棒性。此外,不同的情绪表达可能也会导致活动的不同变化,例如,恐惧可能会导致心率的增加和皮肤温度的下降。因此人体生理信号如心电图 (ECG) 皮肤电导 (GSR) 可以为微表情的识别提供线索,因此微动作和生理信号可以提供互补的信息,从而进一步地改善MER的性能。
目前大多数ME数据集都是在实验室条件下进行收集的,这些数据通常没有明显的头部运动、光照变化或者遮挡。但是在实际场景下几乎不可能出现这么严格地条件,基于受限条件采集地数据集上训练的模型通常在实际环境下的泛化效果不佳,因此需要研究有效且稳健的能够在现实条件下在人体姿势变化和光照变化下应用的MER模型。
另外在模数据集的采集过程中,受试者通常需要在观看视频片段时保持中性的宏观表情,但是仍然会出现一些难以避免的宏观表情。因此大多数的研究中都只假设数据中只存在ME。但是在实际场景下,ME通常伴随着宏观表情同时出现,因此,未来的研究中应该探索在宏微表情同时出现的时候如何进行检测和区分,另外同时分析宏微表情也能够更容易地理解人们的真实感受和意图。
MER面临的另一个挑战是样本数量有限。ME数据集的采集非常困难,因此ME的数据集通常规模非常小。成功训练一个基于DL的模型需要大量且多元化的数据,但是当前的微表情数据集远远不足以训练一个鲁棒的模型,为了避免过拟合,通常需要采用浅层网络、迁移学习和数据增强等方法。但是即使采用这些方法,其有效性依然非常有限需要进一步地改进。另外,一些情感 (恐惧) 可能很难被引发和收集,不平衡的数据可能会导致网络偏向多数类别,因此,需要有效处理不平衡的数据的算法,从而减轻对不平衡类别分布的影响提高模型对少数类别情感的识别能力。因此,需要解决数据稀缺问题以及有效地处理数据不平衡的问题从而提高基于DL的MER的准确性和鲁棒性。
常需要采用浅层网络、迁移学习和数据增强等方法。但是即使采用这些方法,其有效性依然非常有限需要进一步地改进。另外,一些情感 (恐惧) 可能很难被引发和收集,不平衡的数据可能会导致网络偏向多数类别,因此,需要有效处理不平衡的数据的算法,从而减轻对不平衡类别分布的影响提高模型对少数类别情感的识别能力。因此,需要解决数据稀缺问题以及有效地处理数据不平衡的问题从而提高基于DL的MER的准确性和鲁棒性。