微表情识别综述总结

基于深度学习的微表情识别综述总结(赵国英组)

Abstract

可以将面部表情分割为肌肉的各个部分的运动,这个被称为AUs即运动单位,AUs可以有效地解决个体表达的歧义问题,并且能够提高微表情识别的性能。

Dataset

2010年前后出现的数据库:Canal9、York-DDT、Polikvsky、USF-HD,这些数据集要求受试者模仿情绪,所以与微表情的自发性相矛盾。现阶段这些数据集已经不被使用。

后面出现的一些微表情数据集:SMIC、SMIC-e、CASME、CASMEII、CASME^2、SAMM等数据集,这些数据集都是在实验环境下测得的。数据集的具体信息在

图中进行展示:

微表情识别综述总结_第1张图片

A Taxonomy For MER Based on DL

本文对于MER的分类方法由基于DL的MER的组成部分来进行分类:预处理、网络输入、网络三部分。

Pre-process

微表情识别具有强度低、时间段、数据集规模小的问题,因此除了传统的预处理步骤外,仍需要进行运动放大、时间归一化和数据增强等操作,才能获得更好的识别精度。

Face detection and registration

现阶段各种基于深度学习的人脸检测方法已经被提出来克服人脸的变化,这些人脸检测器已经被开源到常用的开源库中,常见的有OpenCV和Dlib。另外,各种微小的姿势和运动都有可能对微表情的识别产生巨大的影响,因此,人脸对齐对微表情的识别将会产生非常重要的影响,它将检测到的人脸和参考人脸进行对齐,从而处理不同的微表情头部姿势。随着深度学习的应用,具有级联回归的网络成为性能最先进的人脸匹配方法。在微表情识别的片段中,由于头部运动很小,因此同一视频片段中的所有帧都使用相同的变换进行对齐,从而处理不同的头部姿势,以增强微表情识别的效果。

Motion magnification

微表情的面部的运动太过于细微,难以分辨,因此,为了便于识别微表情,使用运动放大对于增强微表情的强度至关重要。常见的运动放大方法有欧拉视频放大法**(EVM),其可以放大视频中连续两帧的运动或者彩色内容,但是对于较大的运动放大级别也会导致更大的放大规模从而造成更大的位移和运动伪影。因此可以在整个视频中一致地跟踪和放大表情和全局位移的全局拉格朗日运动放大(GLMM)**被应用。此外基于学习的运动放大被应用于微表情的放大。

Temporal normalization

微表情识别除了强度低外,还面临着持续时间短和多变的挑战,尤其是处理一些帧数相对较低的数据集时这个问题时尤为明显,因此为了解决这个问题,引入了Temporal interpolation model(TIM时间插值模型),基于帧间的路径图将所有的ME需要插值到相同的指定长度。

应用TIM来应用时间归一化的时候,有如下优势:

  • 对于帧数较少的片段进行上采样:从而在保证数据连续性的同时增加帧数到所需要的长度
  • 通过处理统一长度的视频片段来获取更稳定的特征:在模型处理视频的时候,有些模型对不同长度的视频片段可能会敏感,因此通过将视频统一到相同的视频长度可以获得更稳定、一致的特征表示,从而增加模型的性能,提升模型的鲁棒性
  • 可以将视频片段扩展为长序列,并进行子采样以进行数据增强:在实际研究过程中,可能会遇到微表情的片段,需要将这些片段扩展为较长的序列,可以在这些片段中插入一些帧来增加其时间跨度,之后对这些扩展的片段进行子采样得到不同的片段,作为一种数据增强的策略
Regions of interest

可以通过提取ROI上的一些特征来减少没有用的信息的区域对识别精度的影响,主要有如下几种方式来提取面部的ROI:

  • 手工制作的基于特征的方法,将人脸分割为几个相等的块,从而更好地描述局部变化
  • 为了消除眨眼和静止区域引起的噪声,可以对每幅图像的眼睛和脸颊区域进行遮盖,但是由于眼睛的运动也会对MER有一定贡献,因此也会造成一些负面影响
  • 在分析了ME数据集的差异热图后,发现眼睛、鼻子和嘴巴区域的微表情最为活跃,因此在工作中可以只考虑眼睛和嘴巴的区域,并选择这些区域作为ROI
  • 另外,可以使用人脸关键点定位的小面部块来提取特征,这样学习空间的维度可以大幅度降低,有助于模型在小型的数据集上进行学习和训练

但是,以上几种方式都是基于同一个假设,即所有的ROI块对于MER的贡献都是相等的,然而,在实际的操作中可能每一块ROI对于MER的贡献均不相同,因此也可以设计一个模型来自动学习对模型贡献最多的区域,从而提高模型的效果。

Data augmentation

MER的挑战主要还包括现阶段并没有一个大型的ME数据集来训练一个鲁棒的模型,ME的微妙、快速和不自觉的特点也大大增加了数据集收集的难度,因此,数据扩充是非常必要的,常见的数据增强方式主要是对空间域上的随即裁剪和旋转,以下是一些常见的数据扩充方式:

  • 可以通过对微表情进行倍数放大来增强微表情
  • 生成对抗网络(GAN)可以通过合成图像来增强数据
  • 引入AU强度可控的的GAN网络来合成细微的ME
  • 提出一种身份感知和胶囊增强生成对抗网络**(ICE-GAN)**,利用胶囊网络完成ME合成和识别任务,并获得了比较有效的提升
  • 利用条件GAN生成光流图像来提高计算光流的MER精度
  • 对于ME片段,通过TIM从扩展的ME序列中分采样ME可以增强ME序列

Various Inputs

ME的强度很低、持续时间短、数据量有限,基于深度学习的MER具有一定的挑战性,并且MER的性能随着输入的不同也会有不同的变化。

Static image

现有的很多研究都是针对无时间信息的静态图像进行研究的。但是考虑到静态图像的强度,科研人员探索了基于视频所有帧中面部运动强度最大的关键帧的方法。Apex spotting是建立在基于apex frames的MER系统的关键组成部分。在之前的研究中,使用光流的运动幅度随时间的变化来定位视频的起始帧、关键帧和结束帧。在之后的研究中,研究人员利用特征差异来检测长视频中的微表情。然而基于光流的方法需要复杂的特征操作,而基于特征对比的方法则忽略了微表情的动态信息。然而这些方法都是在时空领域对面部变化的检测,但是由于微表情的低强度和短暂的特性,表情沿时空领域的变化并不明显,因此模型很难在时空领域检测到关键帧。之后的研究中,研究者通过CNN来进行微表情定位,SMEConvNet首次被应用在微表情定位上,基于CNN的定位方法主要局限于小规模的微表情数据集和长视频中混合的宏微观表情片段。

Dynamic image sequence

微表情在空间域上的变化非常微妙,而在时间域上的变化非常快,因此各种动态输入对模型的性能影响非常大,以下是一些动态输入数据类型的样例:

  • 序列:随着3D CNN和RNN在视频分析中的成功,研究人员开发了基于序列的模型,基于序列的模型可以同时考虑时间信息和空间信息,但是模型的计算量相对较高,由于微表情数据集的数据量过小,因此过于复杂的模型也容易过拟合较小规模的训练数据
  • 帧聚合:微表情大多由高速摄影机来捕捉微妙的表情变化,但是高速摄影机记录的视频片段也存在冗余信息,由于冗余信息的存在,会导致模型的识别精度降低,另外,实验结果表明,起始帧、关键帧和结束帧可以为MER提供足够的时空信息,此外Liong提取了MER的起始帧和关键帧的特征,SMA-STN设计了一种动态分割稀疏成像模块的方法(dynamic segmented sparse imaging module, DSSI),为了避免关键帧斑点,从均匀分割的序列中稀疏采样三帧生成片段,LR-GACNN根据光流的大小选择帧,通过这种方式,可以有效地获取ME序列中的细微的运动变化和重要的片段,从而实现鲁棒的MER
  • 带有动态信息的图像:它在单个实例中包含整个视频序列的动态信息,通过使用排名汇聚算法生成的动态图像被成功应用于微表情的识别,并在图像中可以提取出为表的动态变化和外观信息,从而实现高效的检测。Liu等人设计了一个动态分割稀疏成像模块(dynamic segmented sparse imaging, DSSI)用来计算一组动态图像作为后续模型的输入数据
  • 活动图像:估计和累积每个像素分量的变化,将视频序列的时间的空间信息封装到一个单独的图像实例中
  • 光流:由于微表情具有细微和快速的特点,ME帧之间的运动对于ME的识别非常重要,光流是一种对于局部图像运动的近似,其指定图像序列中的像素运动的大小和方向,常见的改进光流的方法有:Farneback、Lucas-Kanade、HornSchunck、TV-L1、FlowNet等。现在的许多方法使用光流来表示微表情并降低身份特征的影响,现阶段基于光流的方法通常优于基于外观的方法,尤其是垂直方向的光流对于微表情的识别至关重要,此外,一阶和二阶的光流也能进一步提高MER的性能(一阶光流(First-Order Optical Flow):一阶光流是最简单和最常见的光流估计方法。它假设像素运动是局部恒定的,即在一个小的像素块内,所有像素的运动是相同的。一阶光流基于亮度恒定约束(Brightness Constancy Constraint),即假设图像中的像素值在时间上是恒定的。通过对图像序列中相邻帧之间的像素值进行差异计算,并利用某种优化算法(如Lucas-Kanade算法)来估计像素的运动速度和方向。由于只考虑像素值的变化,一阶光流通常不能捕捉到图像中像素之间的运动非恒定性,因此对于复杂的场景可能会产生较大误差。二阶光流(Second-Order Optical Flow):为了解决一阶光流的局限性,二阶光流引入了额外的约束,考虑了像素值的空间梯度和时间导数。它假设像素的灰度值和时间上的变化服从空间和时间导数的约束。通过对图像序列中相邻帧之间像素值的空间和时间导数进行分析,可以得到更加准确的像素运动估计。二阶光流通常使用更复杂的数学模型和计算方法,对于复杂场景的运动估计效果更好,但计算量也更大。一阶光流和二阶光流都是用于估计像素运动的光流技术,它们在不同场景和应用中具有不同的适用性和性能。根据具体任务的需求,可以选择适合的光流方法来获得准确的像素运动估计。
  • 多种输入:由于关键帧和动态图像序列在微表情识别中具有一定的优势,因此,许多模型输入多种维度的信息来从不同数据中学习特征,从而在有限的ME数据集上利用尽可能多的信息来实现更优秀的性能

现阶段,多输入的方法获得了最优秀的性能,因此更多的组合模式将是未来的研究方向。

Deep Networks For MER

卷积神经网络在各种计算机视觉任务中表现优异。循环神经网络(RNN)被提出处理不同长度的时间序列数据,长短期记忆网络(LSTM)被提出来解决训练RNN时可能遇到的梯度消失的问题。接下来文章从网络块、网络结构和损失方面进行了综述。

Network block

随着DL的发展,各种高效的网络块被提出,接下来文章介绍了为了解决MER问题设计的网络块。深度学习解决MER的主要瓶颈之一是较小规模的ME数据集远不足以训练一个健壮的网络。

  • 带有快捷连接的残差块:带有快捷连接的 (shortcut connections) 的残差块能够实现简单的优化、随着深度的增加从而提高模型的准确定并减少梯度消失的问题。主要的改进策略集中在少量残差块为主干网络降低网络深度从而实现鲁棒的识别效果、设计可卷积的快捷链接来学习重要的残差信息从而增加类内外变得区分能力。另外,全连接层需要大量参数使得网络容易出现过拟合和损失爆炸的问题,因此提出了Inception和Hybrid Feature方法被提出以进行维度和参数的降维并保留微表情表达区域的知识特征并通过不同尺度的卷积滤波器来丰富边缘变化的特征。此外,CNN在具有更多卷积层的情况下表达能力更强,但在小规模数据集上容易出现过拟合的问题,因此引入了RCN (Recurrent convolutional network) 通过循环连接在浅层架构中来实现多次卷积操作
  • 注意力模块:微表情利用的是面部肌肉上的特定的活动,并且这些肌肉的活动较低,因此突出显示ROI上的信息非常重要,因此一些方法采用注意力模块来增强空间编码,同时也可以使用多头注意力机制或者协方差相关性来探索ROI之间的关系
  • 胶囊神经网络 (CapsNet) :传统的CNN使用滑动卷积核可能无法有效地获取图像实体属性的结构,CapsNet通过路由将低级特征组合为高级特征,更好地建模层次关系,可以将CNN或GAN和CapsNet相结合从而提高MER的性能
  • 时间信息:微表情强度低,持续时间短,各帧之间变化大,因此各帧对MER的贡献不同,一些方法引入了全局时间和空间注意力模块,编码更加广泛的时空信息,从而捕获更高级的语义信息,另一些方法利用全局自注意力模块和非局部自注意力块来学习时间段的权重,从而捕获序列全局上下文的信息和面部运动的长程依赖性
  • 通道注意力:SEnet是一种自适应的根据通道关系重新校准特征相应的方法,即通道注意力机制,一些模型通过借鉴SEnet的方法通过添加SE块来自适应地学习每个特征通道的权重

这些网络块的示意图如下图:

微表情识别综述总结_第2张图片

Network structure

目前MER的网络结构可以分为单流、多流、级联和多流级联几类,接下来介绍这几种网络结构的细节:

  1. 单流网络:典型的深度微表情识别方式猜用单个CNN并使用单个输入,常见的输入包括关键帧、光流和动态图像,而单个3D CNN直接从微表情序列中提取时空特征,但是有限的数据集远远不足以训练一个稳健的网络,一些研究设计了浅层的单个CNN来用于微表情的识别,这些浅层网络可以通过删除深层网络的卷积层或在输入后添加卷积层来增加非线性表达来实现。或者一些方法可以通过微调预训练在大型人脸数据集上的深度网络来避免过拟合的问题。
  2. 多流网络:单个模态只能提供有限信息,因为有限的样本,因此需要将多模态的信息充分利用,多流网络结构能允许网络通过多条路径来提取多模态的信息,并将这些信息串联在一起以构建更鲁棒的网络,
    • 带有相同模块的多流网络:这类多流网络采用相同的网络块从不同视图提取特征,此外一些方法考虑了面部不同区域的多个ROI以及全集区域作为每个流的输入
    • 带有不同模块的多流网络:这类网络在增强微表情特征的时候探索了不同卷积的组合,从而获得多尺度特征来探索微表情,此外一些方法整合了2D CNN和3D CNN来提取时空信息
    • 带有CNN和手工特征的多流网络:由于微表情的微小的面部运动和纹理密切相关,手工提取的特征以低级表示在微表情识别方面发挥着重要的作用,一些模型通过将深度特征和手工特征进行结合,从而利用低级信息和高级信息对数据集实现鲁棒的微表情识别
  3. 级联网络:微表情在空间域内运动很微妙,但是在时间域内变化非常快,这些变化对微表情的识别非常重要,此外,微表情的出现是自发的,且持续时间也并不相同。RNN和CNN可以级联起来,从而从序列的每个帧中提取特征,并捕获序列中的面部变化。在考虑到冗余信息后,AKMNet通过注意力机制来发现关键帧,并使用较少的可训练参数的双向GRU来计算所有关键帧之间的关键时态上下文信息。RNN可能存在梯度消失或爆炸的问题,LSTM解决了梯度消失的问题,并且非常适合处理具有未知持续时间的时间序列,因此可以将3D CNN同LSTM结合起来,直接处理具有不同持续时间的数据。
  4. 多流级联网络:许多微表情识别的方法使用多流级联网络来进一步探索多视图的时序信息。

单流网络是最简单的基本模型结构,然而,单流网络只考虑了微表情的单个视图。为了进一步利用微表情的信息,提出了多流网络,用于学习来自多个视图的特征从而实现鲁棒的微表情识别。此外考虑到微表情在时间维度上迅速的变化,时间信息对微表情识别的影响非常巨大,因此使用级联的RNN和LSTM来利用时间和空间信息以实现更为鲁棒的识别效果。此外,可以将图形学习和迁移学习与多流级联网络相结合从而进一步提高模型的识别性能。

这些常见的网络结构如图所示:

微表情识别综述总结_第3张图片

微表情识别综述总结_第4张图片

Graph network

基于图网络的表示方法对于建模微表情间的语义关系时有效的,并可以用于面部表情的识别任务。在图的定义中,有两个关键元素,即节点和边,其分别表示特征和关系。就图的表示方法可以分为基于关键点级别的图和基于AU级别的图。

  • 基于关键点级别的图:图是基于面部关键点进行构造的。一些方法通过眉毛和嘴巴区域的28个关键点来提取对微表情有贡献的信息,另一些方法使用具有不同扩张因子的TCN残差块来卷积来自多个节点序列内部和来自多个节点序列的元素,这样可以同时建模节点和边缘的特征,得到更强的表示,剩下的一些方法通过构建一个双流图注意力间距网络来探索关键点与关键点周围光流的关系
  • 基于AU级别的图:图是基于AU的特征进行构建的从而用来提升微表情识别的性能。有AU标签图和AU特征图两种类型的AU级别图表示。AU标签图是基于训练数据的AU标签分布构建的,AU特征图通过提取表示相应AU的特征图来识别微表情。这些方法通过应用图注意力卷积网络来处理AU节点的特征,并进行图池化来提高推理过程的效率
Loss

在传统的分类方法中,特征提取和分类是独立进行的,而DL可以通过损失函数进行端到端的分类,在训练过程中通过惩罚预测结果与真实标签之间的偏差来优化分类的效果。大多数MER都采用softmax作为损失函数,但是softmax主要适用于正确分类且已知类别的情况下。然而在实际情况下,需要对未知的样本进行分类,因此为了获得更好的泛化能力,需要进一步优化类间差异和类内变化

度量学习技术,如对比损失和三元组损失,通过测量输入之间的相对距离来确保类内紧密性和类间可分性。一些方法采用对抗学习策略和不等式正则化的三元组损失,以有效地收敛MicroNet的输出。然而,度量学习损失通常需要有效的样本挖掘策略,以获得稳健的识别性能。只有度量学习还不足以学习一个判别性的度量空间用于微表情。实验表明,通过在softmax损失上引入较大的边界可以增加类间差异。因此,一些方法将softmax交叉熵损失和中心损失结合起来,通过惩罚深度特征与其对应类别中心的距离,增加了类内变化的紧凑性和类间差异的可分性。由于微表情是自发的,有些特殊的微表情很难触发,导致数据不平衡。一些方法通过采用focal loss来解决数据不平衡问题,通过添加一个因子将重点放在难以分类和错误分类的样本上。另外,一些方法设计了自适应因子来平衡给定训练批次中负样本和正样本的比例。

由于微表情的低强度和自发性特点,导致了高类内变化、低类间差异和数据不平衡的问题。目前,大多数微表情识别方法都基于基本的softmax交叉熵损失,但也有一些方法采用三元组损失、中心损失或focal loss来增强类间可分性、类内紧密性和平衡学习。因此探索更有效的损失函数来学习微表情的判别性表示是一个有前景的方向。考虑到面部运动的低强度导致低类间差异,应进一步研究更好的度量空间和更大的边界损失来提高微表情的识别性能。

Multi-task network

现实世界中的面部表情往往涉及到多种因素,例如个体身份和AU等 ,而单一MER任务无法利用到所有的信息,同时微小的面部运动也很难为模型提供足够的信息,因此可以使用基于DL的多任务学习方法来改进MER的性能。一些方法通过结合不同的辅助任务来构建端到端的网络从而提高模型的性能,例如可以将面部关键点检测和光流提取同MER结合来改进光流的特征。多任务学习可以实现在不同任务之间更好地共享知识从而提高性能并降低过拟合的风险。

微表情识别综述总结_第5张图片

Transfer learning

DL处理MER任务会受到数据局限带来的挑战,因此通过迁移学习来利用具有标签的大规模面部数据集是一种解决方法。在迁移学习中,与MER相关的任务中预训练的模型被应用到MER任务中。目前常见的三种主要的方法为fine-tuning、知识蒸馏和领域自适应。

  • 常用的迁移学习方法指以就是在预训练模型上进行微调,大多数的方法都是使用基于ImageNet等上面预训练的深度网络,从面部表情数据集中提取的特征在准确性方面表现更好,因为这些特征更接近于ME数据集
  • 知识蒸馏:知识蒸馏通过利用预训练的高容量网络信息来指导小型和快速网络的学习,然而,由于面部的运动强度不同,微表情和宏表情之间存在差异,因此直接模仿宏表情是不合理的。
  • 此外,领域自适应方法通过在DL的流程中嵌入领域自适应来获得领域不变的表示,领域自适应方法通过对抗学习策略来缩小ME和宏表情之间的差距
Discussion
  1. 未来可以设计更有效的块来提取有限数据上的微小运动
  2. Transformer可以有效地对图像和序列进行建模,也可以对AU和ROI和帧之间的关系进行建模
  3. 损失方面,常用的是softmax,但是可以用度量学习损失和边界损失来增加类间差异并减少类内差异
  4. 基于图的方法可以有效地对这些语义关系进行建模,基于图的方法通常是基于面部关键点和AU标签的
  5. 多任务学习能够充分利用到面部信息
  6. 迁移学习能够从其他模型中学习信息
  7. 知识蒸馏和领域自适应可以从大规模面部表情数据集中借鉴信息从而时间出色的性能
  8. 半监督学习和无监督学习也是有潜力的方向

Experiments

Protocol

交叉验证是目前最广泛应用的MER性能评估方法。在交叉验证过程中,数据集会被分为多个fold,进行训练和测试的过程在不同的fold中进行,这样的方法可以保证每个样本最少被使用一次,从而实现公平的评估,防止模型在小规模数据集上过拟合。交叉验证包括LOSO、LOVO和N Fold交叉验证

Evaluation matrix

在MER中,常见的评价指标是准确率和F1分数。准确率衡量正确预测和总样本的比例,但是准确率容易受到数据偏差的影响。F1分数通过考虑总体的TP、FP和FN来揭示了真正的分类性能,从而解决了偏差问题。

对于合成数据集,它们将多个数据集组合在一起,导致了严重的数据不平衡,因此通常采用无权重F1分数和无权重平均召回率来衡量各种方法的性能。

Challenge And Future Directions

3D ME sequence

目前MER主要研究的重点是2D领域,因为相关的模态、图像和视频在数据中广泛存在,虽然近些年MER取得了一些显著性的进展,但是大多数基于2D面部图像和序列的现有的方法很难解决现实的拥有光照和姿态变化下的微表情任务。3D面部数据可以较好地解决上面的具有挑战性的问题,其对光照和姿态的变化具有鲁棒性,另外,3D信息包含面部表情识别的重要特征,可以训练更好的模型,因此基于3D序列的MER任务将会是主流的研究方向。

ME AU analysis

ME可以揭示人们的隐藏的情感,在现实世界中有非常广泛的应用。但是ME的解释存在一定的歧义,例如眉毛的抬升可能意味着惊讶或者是悲伤。面部动作编码系统 (FACS) 可以对解决歧义问题非常有效。在FACS中AU被定义为最基本的面部运动,是构成面部表情的基本单元,可通过对AU进行编码,并将AU特征进行嵌入来改善MER的效果。因此可以探索AU和ME之间关系从而提高MER的性能

Compound ME

过去的研究中主要针对于如下的六种基本表情:快乐、惊讶、愤怒、悲伤、恐惧和厌恶。然而,人们在日常生活中通常会产生更为复杂的情感,例如,惊讶的同时可能产生快乐或者愤怒,这样的表情被称为是复合表情。现阶段已经确认了17中复合表情,这些表情比这些要丰富得多。在MER领域,复合表情很少被研究过,虽然复合表情因为其微小的面部运动和有限的数据使得MER任务变得非常有挑战性,但是复合表情可以反映人类更复杂的情感,值得进一步的研究。

Multi-modality MER

MER任务的一个挑战是低强度和小规模的数据集很难为MER任务提供非常多的信息。利用多模态的数据可以提供互补信息并增强分类的鲁棒性。此外,不同的情绪表达可能也会导致活动的不同变化,例如,恐惧可能会导致心率的增加和皮肤温度的下降。因此人体生理信号如心电图 (ECG) 皮肤电导 (GSR) 可以为微表情的识别提供线索,因此微动作和生理信号可以提供互补的信息,从而进一步地改善MER的性能。

ME in realistic situations

目前大多数ME数据集都是在实验室条件下进行收集的,这些数据通常没有明显的头部运动、光照变化或者遮挡。但是在实际场景下几乎不可能出现这么严格地条件,基于受限条件采集地数据集上训练的模型通常在实际环境下的泛化效果不佳,因此需要研究有效且稳健的能够在现实条件下在人体姿势变化和光照变化下应用的MER模型

另外在模数据集的采集过程中,受试者通常需要在观看视频片段时保持中性的宏观表情,但是仍然会出现一些难以避免的宏观表情。因此大多数的研究中都只假设数据中只存在ME。但是在实际场景下,ME通常伴随着宏观表情同时出现,因此,未来的研究中应该探索在宏微表情同时出现的时候如何进行检测和区分,另外同时分析宏微表情也能够更容易地理解人们的真实感受和意图

Limited data

MER面临的另一个挑战是样本数量有限。ME数据集的采集非常困难,因此ME的数据集通常规模非常小。成功训练一个基于DL的模型需要大量且多元化的数据,但是当前的微表情数据集远远不足以训练一个鲁棒的模型,为了避免过拟合,通常需要采用浅层网络、迁移学习和数据增强等方法。但是即使采用这些方法,其有效性依然非常有限需要进一步地改进。另外,一些情感 (恐惧) 可能很难被引发和收集,不平衡的数据可能会导致网络偏向多数类别,因此,需要有效处理不平衡的数据的算法,从而减轻对不平衡类别分布的影响提高模型对少数类别情感的识别能力。因此,需要解决数据稀缺问题以及有效地处理数据不平衡的问题从而提高基于DL的MER的准确性和鲁棒性
常需要采用浅层网络、迁移学习和数据增强等方法。但是即使采用这些方法,其有效性依然非常有限需要进一步地改进。另外,一些情感 (恐惧) 可能很难被引发和收集,不平衡的数据可能会导致网络偏向多数类别,因此,需要有效处理不平衡的数据的算法,从而减轻对不平衡类别分布的影响提高模型对少数类别情感的识别能力。因此,需要解决数据稀缺问题以及有效地处理数据不平衡的问题从而提高基于DL的MER的准确性和鲁棒性

你可能感兴趣的:(读研,计算机视觉,深度学习)