Adaptive Feature Mapping for Customizing Deep Learning Based Facial Expression Recognition Model
基于自适应特征映射的自定义深度学习面部表情识别模型
摘要:自动面部表情识别可以大大改善人机界面。当机器知道人类的情感时,它可以提供更好更个性化的服务。这种改进是人工智能时代的一个重要进步。近年来,随着大量数据的积累,深度学习方法的识别准确率越来越高。然而。由于具体的环境条件和所涉及的不同人的变化,性能受到限制。因此,本文解决了如何从测试样本中定制没有标签信息的通用模型问题。加权中心回归自适应特征映射(wcr-afm)主要是将测试样本的特征分布转换为训练样本的特征分布。W-CR-AFM通过最小化测试样本的每个特征与最相关类别的中心之间的误差,将测试样本在决策边界附近的特征带到表达类别中心;因此,他们的预测标签可以被纠正。在扩展的CK+Radboud Faces数据库和Amsterdam动态表情数据集上对模型进行w-cr-afm调优后,我们的方法可以分别提高约3.01%、0.49%和5.33%的识别准确率。与具有相同训练数据的深度学习体系结构相比,我们的方法具有更好的性能。
索引项:跨域适应 面部表情识别 计算机视觉 模式识别 图像处理
在此研究中,提出了三种自适应特征映射(AFM),将测试样本的特征空间尽可能地转移到训练样本的特征空间中。由于AFM是按顺序学习数据的,因此它可以很容易地部署到深度学习模型中,并且可以提高性能。
本文有两个主要的贡献。首先,提出了一种新的用于一般的面部图像处理预处理方法,并提高了性能。其次,提出了具有大量训练数据的深度学习模型的领域自适应方法AFMs,该方法可以有效地对参数进行微调,并在具体应用中获得更好的识别精度。
这篇论文的组织如下:第二部分介绍了测试和训练数据的编制。第三部分和第四部分描述了图像预处理的方法和CNN的架构。第五部分解释了AFMs的工作原理和设计原则。第六部分是实验和讨论。第七部分是结论。
本节讨论了面部表情数据库的使用以及训练和测试数据的准备过程。在本文中,只考虑7种常见的面部表情:愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中立。其他的表情即使在公共域数据库中收集,也会被忽略。
多年来,扩展的科恩-坎德(CK+)已经被广泛用于研究面部表情识别。在每个人的表情类别中大约有15个图像序列,表情强度从低到高变化。第一副或两副图像作为中立表情,后一副或两幅图像作为充分发挥作用的表情。因此,CK+有630张图片。样品如图1所示。
RaFD是一个高质量的人脸数据库,它包含8种情绪表达的图片,包括白人男性和女性,白人儿童男孩和女孩,以及摩洛哥荷兰男性。头部姿势从左边到右边各不相同,每一个姿势都有三个凝视的方向。与CK +相比,RaFD对识别模型更具挑战性。样品如图2所示。
在Amsterdam dynamic面部表情集(adfes)中收集了大约10种情绪表达。大部分都是带有头部姿势变化的视频,表情强度也从低到高,比如CK+。当表情开始变得明显时,面部图像以固定的时间步长被捕获。样品如图3所示。
为了使深入模型更加健壮和一般化,我们构建了一个自己开发的/专有的数据库来训练模型。从youtube上下载了372个视频,包括电影、电影评论、综艺节目和一些短片。然后,采用king提出的人脸检测方法,对时间间隔设置为1、2或3秒(s)的人脸图像进行捕获,避免重复使用类似表情的图像。然后,制作了10万张面部图像。只有那些代表它们相应类别的图像被手工挑选出来作为训练和测试样本。这个数据库最终有17655张图片。图4显示了一些样品。
由于CK+是一种众所周知的面部表情识别基准,图像的数量很少,所以它不会被放在训练集里,而是在测试集中,以客观地显示所提议的方法的性能。在RaFD和adfes中,分别选择10人和4人的图像作为测试数据;因此,在训练和测试中的人肯定是不同的。测试图像总数是CK+630张,RaFD616张,adfes562张;训练数据23,591张,其中专有数据库17,655张,RaFD3,377张,adfs2,559张。测试和训练数据的配置如表1所示。
为了平衡所有类别的图像计数,对图像较少的类别进行补充,在结合训练数据之前随机复制选择的图像。这样,每个类别的图像总数是相同的。
研究表明,如果数据以一种合理的方式进行扩充,那么该模型的性能将会好得多。因此,训练集被镜像,并通过两个伽马变换,三个高斯模糊,和三个锐化滤波器进行增强,因此一个图像被扩展到42个图像。因此,训练数据的总数增加到2,315,544,分辨率被设置为64*64像素的灰度。
先前的研究表明,如果对图像进行适当的预处理,就可以提高识别性能。在本章中,介绍了一种包含空间归一和特征增强的预处理方法。
空间归一化的目的是调整被检测到的面部图像的位置和旋转角度的对齐方式。如图5所示。
采用一种人脸对齐算法来检测人脸的一些地标。鼻尖将移到图像的中心,这样可以减轻位置偏移。
局部二进制模式(LBP)可能是一种从图像中提取特征的有效方法。尽管如此,它可能会丢失许多内在信息。Lu等人试图通过从相邻中心差分向量(NCDV)到二进制空间的映射来解决这个问题,这样模式就可以更好地表示原始数据库中的图像,但是它需要更多的计算工作。
为了有效的增强边缘,保留原始信息,提出了相邻中心差分图像(NCDI)。其概念和NCDV相同。NCDIs被减去提取中心像素的相邻像素,像素值的下降从-255到255不等。NCDI从所有的patch中收集所选通道的减法结果,以重建图像。因此,如果采用8通道NCDI,则会产生8个不同方向锐化的图像,如图6所示。
增强边缘后,面部轮廓和背景变得更清晰,但它们与面部表情没有任何关系。因此,需要对面部图像进行裁剪。由于面部轮廓经常与背景混淆,被检测到的地标可能会在面部轮廓和背景之间漂移。不建议通过连接地标来裁剪面部图像,这被认为是多边形裁剪。除了轮廓之外,其他的地标更稳定。如图7所示,使合适的地标回归的椭圆区域是有效裁剪面部图像的更好方法。椭圆函数是:
(为了回归这些地标,成本函数被定义为: 其中x,y)是所选位置的地标,N是样本数,δ是用于调整优化的超参数。通过将成本函数的梯度设置为0,,方程就变成了 :
(对称矩阵 满秩 存在一个解析解发现椭圆)
示意图如图7所示。如图8所示,仅保留椭圆中的像素和低于眉毛最高地标的像素。图9显示了椭圆裁剪与多边形裁剪的区别。
预处理过程如下所示。检测人脸并找到边界框。将面部图像调整为64*64像素。然后,提取脸部的地标,最后进行空间归一化和特征增强。
基于caffe框架,设计CNN模型。在网络中有一些并行的结构,可以使用不同大小的窗口来提取特性。该模型由9个卷积层、2个最大池化层、1个平均池化层、3个全连接层和1个局部响应归一化(LRN)层组成。激活函数都被设置为修正线性函数。图10显示了该模型的其他细节和配置。
像12一样,全连接层(L12)的输出被认为是编码特征。将全连接层(L13)和Softmax 输出层(L14)结合起来作为分类器。除了分类器外,整个结构是输入图像的特征提取器。卷积特征提取器(CFE)定义为从卷积层(L1)到平均池化层(L10),全连接特征提取器(FCFE)定义为从全连接层(L11)到全连接层(L12)。
本节讨论了AFM的设计原理和机制。在下面的描述中,训练和测试数据集被分别表示为X和Y,N s是训练样本数,而N t是测试样本批次大小。特征提取器由CFE和FCFE组成,它被表示为h(x W)。W是整个特征提取器的参数集,而x是输入样本。在本研究,x是8通道NCDIs。
AFM的主要目的是调整测试样本的特征提取器的参数,使调整后的特征提取器能够使测试样本的特征分布与训练样本相似。参见图11。也就是说,,其中W是通用参数集,而W~是测试样本的新参数集。为了达到这个目的,必须尽量减少训练样本和测试样本之间的差异。根据19、20和22,成本函数可以写成:
(缩写 矩阵L的元素 由于我们只关心训练样本和测试样本的特性之间的交叉关系,其他的术语可以排除。因此,成本函数可以被修改为)
其中 α i,j 是表示 和 的相关性的权重。当训练和测试样本的特性是相关的时,需要一个大的 α i,j值,即错误变小。相反,当训练和测试样本的特性不那么相关时,需要一个更小的i,j值,即错误变得更大。如果 α i,j不合适,成本函数将会剧烈振荡,在训练过程中可能不会收敛。此外,随着训练样本数量的增加,计算复杂度也会增加。因此考虑到“赢者通吃”的策略,成本函数重写如下:
其中r是训练样本的索引,它与第i个新样本距离测量最相关,r ∈ [1,N s ]。通过最小化最近的训练样本,振动是有阻尼的,计算复杂度也降低了。
由于一些不好的样品可能会限制AFM的性能,因此可以考虑分类器输出的概率分布,从而使成本函数得到规范。通过简单地将预测置信度相乘,成本函数可以写成:
N k是分类数。这种形式的AFM被定义为加权自适应特征映射(W-AFM)。
CNN的分类器是一个线性变换。CNN模型经过良好训练后,模型提取的特征必须是线性可分的。因此,每个类别中都必须有一个唯一的中心。如果考虑到类别的中心,可以进一步减轻对人的偏见。那么,成本函数可以被修改为:
其中h代表y类的特征中心,这种形式的AFM被认为是加权中心回归自适应特征映射(W-CR-AFM)。
这些成本函数可以通过随机梯度下降法很容易地来求解,它是这样写的:
其中η是学习率,λ是使参数不受约束的调节因子。是成本函数的梯度。
在培训了CNN模型后,提取的训练样本特征将作为特征数据库存储。在测试阶段,AFM可以根据测试样本特征和特征数据库之间的关系来调整权重,以便将测试样本特征转换为一个新的空间,这样它的分布就可以与特征数据库相似。大多数参数分布在全连接层中,因此AFM只用于调优FCFE以获得更高的效率。请参见图12。AFM的前提是,假设测试样本的特征分布与训练样本相似。因此,围绕决策边界的特征被转移到分类中心。这样,错误的分类标签就可以被纠正。此外,必须提前清除被错误分类的训练样本,以便新映射的特征可以更好。为了使其更可靠,预测置信度较低的测试样本可以被忽略。
表2显示了不同预处理方法下的模型结果。如表2所示,空间归一化以来似乎并不总是帮助识别精度因为边界框的边缘可能会出现,成为空间归一化后的图像的主要特征,这削弱了识别功能,导致精度降低。此外,该模型还通过YouTube上的许多偷拍图片进行了训练,因此它可以提取一些不受旋转影响的特征。因此,识别精度可以高于空间归一化时的精度。这可能是表2中空间归一化看起来无效的原因。特征增强操作不仅使面部边缘更加清晰,而且还能去除与面部表情无关的区域,使CK+的准确率提高了4.61%,RaFD的准确率提高了5.52%,ADFES的准确率提高了1.78%。结果表明,所提出的预处理方法是非常有效的。
提出的具有空间归一化和特征增强的CNN模型作为我们的通用模型(GM)。至于AFM,学习率η设置为0.001,而正则化因子λ被设置为0.0005。训练的迭代设置为1000。批量从16到512不等。对训练后的样本和测试样本进行镜像,事先移除被错误分类的训练样本,而对AFM模型进行调优时不考虑预测置信度低于90%的测试样本。结果如图13、图14和图15所示。在大多数情况下,W-AFM性能优于AFM,而W-CR-AFM是最好的。当批量大小足够大时,性能将会更加稳定,否则效果可能是有限的。
根据图13、图14和图15所示的实验结果,每一个AFM的最佳结果都列在表3中。根据GM的结果,改进的识别精度在表4中。在这三个数据库中,总是可以正确地预测开心的类别,因为它的特征是显而易见的,而且它的训练数据是充足的。在应用AFM之后,大多数预测的标签都被修正了。与其他类别相比,愤怒、厌恶和恐惧的图像数量较少,因此为这些表情提取特征的能力很差; 因此,测试样本的大多数特征都不属于类别的中心,而是被吸引到其他类别中。此外,愤怒的表情通常是不明确的,所以有时即使使用AFM或W-AFM也会与中性表情混淆。惊奇的主要特征是夸张的嘴,次要的特征是眼睛,但是眼睛的特征很难恰当地提取出来。因为因人而异。Sadeghi等人已经证明了嘴是面部表情的主要特征。然而,一些惊讶的面孔在ADFES中并没有清楚地表达出嘴部特征,因此,如果使用AFM或W-AFM,它们就会被错误地归类为中性表情。
对于W-CR-AFM,由于它最小化了测试样本特征和最相关类别的中心之间的距离,而不是训练样本最相关的特征,因此可以大大降低人的特异性偏差。此外,中性表情的特征分布包含了特征空间中面积最大的区域,因此远离中性表情分类中心的中性表情的特征被引入其他类别。这就是为什么在应用W-CR-AFM后,中性表情的识别精度降低了,然而其他表情的精度提高了。
根据实验结果,这三种类型的AFM都可以在特定情况下帮助提高模型的性能。对于整体的识别精度,W-CR-AFM是最有效的。
在面部表情识别方面,还介绍了一些其他的深度学习方法,并与我们的进行了比较。他们用我们的训练数据进行训练,以便公平比较。
为了让GoogLeNet和AlexNet表现更好,他们之前已经接受了ImageNet的训练。利用训练后的AlexNet的倒数第二层训练SVM。为了展示竞争模型的原始性能,体系结构和训练参数是根据原始的工作设置的。由于CK+不包含在训练数据中,因此在表5中识别准确性低于最先进的结果是合理的。如果这些模型是由CK+训练的,那么预测模型的准确性将会高得多。
表5中的结果表明,我们的方法比其他方法执行得更好。由李等人设计的GoogLeNet、AlexNet和CNN的参数数量分别为40 MB、222 MB和5 MB左右。尽管我们的参数量大约是3.5 MB,比其他的要低得多,但是通过使用提出的预处理方法,性能可以与这些最先进的体系架构相媲美。此外,AFMs可以调整测试样本,使模型的性能优于其他方法。
本文提出了两个主要的贡献。一个贡献是,提出的预处理方法可以帮助CNN模型在面部图像处理的应用中获得更高的准确率。另一个贡献是,三种类型的AFMs可以重新设计没有标签信息的新样本的特征,这样就可以纠正一些错误分类的样本,这意味着它可以调整一个通用模型来适应特定的条件。此外,AFMs可以被部署到实时系统中,因为它可以批量地学习,而不是在一个批处理中计算所有的训练和测试数据。由于AFMs将测试样本的特性映射到静态特性分布,因此概念漂移问题是受限制的,。有了预处理和AFMs,一个轻的CNN可以超越最先进的架构。