2020cvpr最佳人脸识别-Suppressing Uncertainties for Large-Scale Facial Expression Recognition

原文链接
代码即将开源

Abstact

由于表情模糊、低质量的人脸图像以及注释者的主观性等因素的影响,对一个定性的大规模人脸表情数据集进行注释是非常困难的。这些不确定性导致了深度学习时代大规模人脸表情识别的一个关键挑战。为了解决这一问题,本文提出了一种简单而有效的自修复网络(SCN),它可以有效地抑制不确定性,防止deep网络过度拟合不确定的人脸图像。具体而言,SCN从两个不同的方面抑制了不确定性:1)基于小批量的自我注意机制,对每个训练样本进行排序正则化加权;2)通过仔细的重标记机制,在排名最低的组中修改这些样本的标签。在合成的FER数据集和收集到的WebEmotion数据集上的实验验证了该方法的有效性。公共基准测试的结果表明,我们的SCN在RAF-DB、AffectNet和FERPlus上的表现分别为88.14%、60.23%和89.35%。

1. Introduction

面部表情是人类表达情感状态和意图的最自然、最有力、最普遍的信号之一[7,38]。自动识别面部表情对于帮助计算机理解人类行为并与之交互也很重要。在过去的几十年里,研究者们通过算法和实验室或者野外收集到的大规模的数据集,在人脸表情识别(FER)方面取得了显著的进展,如CK+[29]、MMI[39]、OuluCASIA[47]、SFEW/AFEW[10]、FERPlus[4]、AffectNet[32]、EmotioNet[11]、RAF-DB[22]等。

然而,对于从互联网上采集到的大规模FER数据集,由于注释者主观的不确定性以及野生人脸图像的模糊性,使得高质量的标注变得非常困难。如图1所示,不确定性从高质量和明显的面部表情增加到低质量和微表情。这些不确定性通常会导致标签不一致和标签不正确,严重阻碍了大规模人脸表情识别的发展,尤其是基于数据驱动的深度学习人脸表情识别。一般情况下,带有不确定性的训练会导致以下问题。首先,它可能导致对不确定样本的过度拟合,这些样本可能会被错误标记。第二,学习有用的面部表情特征对模特是有害的。第三,高比例的错误标签甚至会使模型在优化的早期阶段出现分离。
2020cvpr最佳人脸识别-Suppressing Uncertainties for Large-Scale Facial Expression Recognition_第1张图片
图1:RAF-DB的真实面部图像的不确定性说明。正确的样本对于机器,甚至是人类来说都是非常困难的,在训练中最好抑制这些样本。

为了解决这些问题,我们提出了一种简单而有效的方法,即自修复网络(Self-Cure Network,SCN),来抑制大规模人脸表情识别的不确定性。SCN由三个关键模块组成:selfarXiv:2002.10392v2[碳钢简历]2020年3月6日注意重要性加权、排名规则化和噪声重标记。在给定一批图像的基础上,首先利用CNN骨干网提取人脸特征。然后,自我注意重要性加权模块学习每个图像的权重,以捕获样本重要性进行损失加权。预计不确定性设备应采用低重要性权重。此外,排序正则化模块按降序对这些权重进行排序,将它们分成两组(即高重要性权重和低重要性权重),并通过在两组的平均权重之间增加裕度来正则化这两组权重。这种正则化用一个函数来实现,称为秩正则化损失(RR损失)。排序正则化模块确保第一模块学习有意义的权重以突出某些样本(例如可靠的注释)和抑制不确定的样本(例如模糊的注释)。最后一个模块是一个小心的重新标记模块,它尝试通过比较最大预测概率与给定标签的概率来重新标记来自底部组的样本。如果最大预测概率大于给定的带边缘阈值的标签的预测概率,则将样本分配给伪标签。此外,由于不确定性的主要证据是不正确/噪声注释问题,我们从互联网上收集了一个极端噪声的FER数据集,称为WebEmotion,以研究具有极端不确定性的SCN的效果。

总的来说,我们的贡献可以概括如下:

  1. 本文创新性地提出了人脸表情识别中的不确定性问题,并提出了一种自愈网络来减少不确定性的影响。
  2. 我们精心设计了一个秩正则化方法来监督SCN学习有意义的重要性权重,为重标记模块提供了参考。
  3. 我们广泛验证了我们的SCN在合成的FER数据和一个新的现实世界不确定情绪数据集(WebEmotion)从互联网上收集。我们的SCN在RAF-DB上的性能也达到了88.14%,在AffectNet上达到了60.23%,在FERPlus上达到了89.35%,创造了新的记录。

2. Retlated Work

2.1 Facial Expression Recognition

一般来说,FER系统主要包括三个阶段,即人脸检测、特征提取和表情识别。在复杂的场景中[cnn和Dlib]都是用来定位人脸的。检测到的面可以进一步交替地对齐。在特征提取方面,设计了多种方法来获取由表情引起的面部几何特征和外观特征。根据特征类型,它们可以分为工程特征和基于学习的特征。对于工程特征,可以进一步分为基于纹理的局部特征、基于几何的全局特征和混合特征。基于纹理的特征主要有SIFT[34]、HOG[6]、LBP直方图[35]、Gabor小波系数[26]等,基于几何的全局特征主要基于鼻子、眼睛和嘴巴周围的标志点。将两个或两个以上的工程特征结合起来就是混合特征提取,可以进一步丰富表现形式。对于所学的特征,Fasel[12]发现浅层的CNN对于面对姿势和比例是很强大的。Tang[37]和Kahou等人。[21]利用深度CNN进行特征提取,分别赢得FER2013和Emotiw2013挑战赛。刘等。[27]提出一种基于面部动作单元的CNN表情识别体系结构。最近,李等。[25]和Wang等人。[42]设计了基于区域的注意网络,用于姿势和遮挡感知的FER,其中区域从地标点或固定位置裁剪而来。

2.2 Learning with Uncertainties

FER任务中的不确定性主要来自于模糊的面部表情、低质量的面部图像、不一致的注释和错误的注释(即噪声标签)。尤其是噪声标签学习在计算机视觉领域得到了广泛的研究,而其他两个方面的研究却很少。为了处理噪声标签,一个直观的想法是利用一小组干净的数据,这些数据可用于在训练过程中评估标签的质量[40,23,8],或估计噪声分布[36],或训练特征提取程序[3]。Li等人。[23]提出了一个统一的蒸馏框架,使用来自一个小的干净数据集的“边”信息和知识图中的标签关系,以“对冲”从噪声标签中学习的风险。Veit等人[41]使用一个多任务网络,共同学习如何清除噪声注释和对图像进行分类。Azadi等人[3]通过辅助图像正则化来选择具有噪声标签的深层cnn的可靠图像。其他方法不需要一个小的干净的数据集,但它们可能假设噪声样本上有额外的约束或分布[31],例如随机翻转标签的特定损失[33],通过MentorNet[20]对损坏标签上的深层网络进行正则化,以及其他方法,通过将潜在的正确标签连接到有噪声的标签上,用softmax层来模拟噪声[13,43]。对于FER任务,曾等。[43]首先考虑不同FER数据集之间的不一致注释问题,并提出利用这些不确定性来改进FER。

3. Self-Cure Network

为了学习具有不确定性的鲁棒人脸表情特征,我们提出了一种简单而有效的自修复网络(SCN)。在本节中,我们首先概述了SCN,然后介绍了它的三个模块。最后给出了SCN的具体实现。

3.1 Overview of Self-Cure Network

我们的SCN建立在传统的cnn之上,由三个关键模块组成:i)自我注意重要性加权,ii)排名正则化,iii)重新标记,如图2所示。在给定一批样本不确定的人脸图像的基础上,首先利用主干网提取人脸的深层特征。自我注意重要性加权模块使用全连接(FC)层和sigmoid函数为每个图像分配一个重要权重。这些权重乘以样本重新加权方案的logits。为了显式地降低不确定样本的重要性,进一步引入秩正则化模块对注意权重进行正则化。在秩正则化模块中,我们首先对学习到的注意权重进行排序,然后将其分成两组,即高重要性组和低重要性组。然后我们在这些组的平均权重之间添加一个基于边际的损失的约束,称为秩正则化损失(RR-loss)。为了进一步改进我们的SCN,我们增加了重标记模块来修正低重要性组中的一些不确定样本。这个重新标记操作的目的是寻找更多干净的样本,然后增强最终的模型。整个SCN可以以端到端的方式进行训练,并且可以很容易地添加到任何CNN骨干中.

3.2 Self-Attention Importance Weighting

我们引入自我注意重要性加权模块来捕捉样本对训练的贡献。预计某些样本可能具有较高的重要性权重,而不确定样本的重要性较低。设F=[x1,x2。,xN]∈RD×N表示N幅图像的面部特征,自注意重要性加权模块以F为输入,对每个特征输出一个重要权重。具体地说,自我注意重要性加权模块由线性全连通(FC)层和sigmoid激活函数组成,其表达式为:
在这里插入图片描述
其中α是第i个样本的重要权重,Wa是用于关注的FC层的参数,σ是sigmoid函数。本模块也为其他两个模块提供了参考.
Logit加权交叉熵损失。
对于注意力权重,我们有两个简单的选择来执行损失加权,这是受[17]启发的。第一种选择是将每个样本的重量乘以样本损失。在我们的例子中,由于权重是以端到端的方式优化的,并且是从CNN的特性中学习的,所以它们注定是零,因为这个繁琐的解决方案没有损失。MentorNet[20]和其他自学方法[19,30]通过交替最小化来解决这个问题,即一次优化一个,而另一个保持不变。在本文中,我们选择了[17]中更有效的logit加权方法。对于多类交叉熵损失,我们将加权损失称为Logit加权交叉熵损失(WCE损失),其公式如下
在这里插入图片描述
其中wji是第j个分类器。如[28]所示,LW-ce与α呈正相关。

3.3 Rank Regularization

在(0,1)中,上述模块中的自我注意权重可以是任意的。为了明确约束不确定样本的重要性,我们精心设计了一个秩正则化模块来正则化注意权重。在秩正则化模块中,我们首先对学习到的注意权重进行降序排序,然后以β的比率将其分成两组。秩正则化保证了高重要性组的平均注意权高于低重要性组的平均注意权,并留有一定的裕度。形式上,我们为此定义了秩正则化损失(RR-loss),如下所示:
2020cvpr最佳人脸识别-Suppressing Uncertainties for Large-Scale Facial Expression Recognition_第2张图片
其中δ1是可以是固定超参数或可学习参数的裕度,αHandα分别是β*N=M样本的高重要性组和N−M样本的低重要性组的平均值。在训练中,总损失函数为Lall=γLRR+(1−γ)LW ce,其中γ是一个折衷比。

3.4. Relabeling

在秩正则化模块中,每个小批量被分成两组,即高重要性组和低重要性组。实验发现,不确定样本的重要性权重通常较低,因此设计一种重新标记这些样本的策略是一个直观的想法。
2020cvpr最佳人脸识别-Suppressing Uncertainties for Large-Scale Facial Expression Recognition_第3张图片
图2:我们的自我修复网络的管道。人脸图像首先被送入CNN主干网进行特征提取。自我注意重要性加权模块从面部特征中学习样本权重以进行损失加权。秩正则化模块将样本权重作为输入,通过排序操作和基于边际的损失函数对其进行约束。重新标记模块通过比较最大预测概率和给定标签的概率来寻找可靠的样本。错误标记的样品用红色实心矩形标记,模棱两可的样品用绿色短划线标记。值得注意的是,SCN主要通过重加权运算来抑制这些不确定性,并且只对部分不确定样本进行修正。

2020cvpr最佳人脸识别-Suppressing Uncertainties for Large-Scale Facial Expression Recognition_第4张图片
修改这些注释的主要挑战是知道哪个注释不正确。具体地说,我们的重标记模块只考虑低重要性组中的样本,并且在Softmax概率上执行。对于每个样本,我们将最大预测概率与给定标签的概率进行比较。如果最大预测概率大于给定的带阈值标签的预测概率,则将样本分配给一个新的伪标签。形式上,重新标记模块可以定义为,
在这里插入图片描述
其中y0表示新标签,δ2为阈值,Pmaxis为最大预测概率,PgtIndis为给定标签的预测概率。lorgand lmax分别是原始给定的指标和最大预测的指数。
在我们的系统中,不确定样本被期望获得低重要性权重,从而通过重新加权来降低其负面影响,然后落入低重要性组,最后通过重新标记将其修正为特定的样本。这些校正后的样本在下一个时期可能获得较高的重要权重。我们期望通过重加权或重贴标签的方法,网络可以自行修复,这就是我们称之为自修复网络的原因。

3.5. Implementation

预处理和面部特征:
在我们的SCN中,人脸图像被MTCNN[45]检测和对齐,并进一步调整为224×224像素。SCN采用Pythorch工具箱实现,主干网为ResNet18[16]。默认情况下,ResNet-18在MS-Celeb-1M人脸识别数据集上进行预训练,并从其最后一个池层提取面部特征。
训练:
我们使用8个Nvidia Titan 2080ti GPU对SCN进行端到端的训练,并将批量大小设置为1024。在每次迭代过程中,训练图像默认分为两组,其中70%为高重要性样本,30%为低重要性样本。高重要性组和低重要性组的平均值之间的差值δ1可以默认设置为0.15,也可以设计为可学习参数。这两种策略将在随后的实验中进行评估。整个网络采用RR损耗和WCE损耗联合优化。根据经验,两种损失的比例设定为1:1,其影响将在随后的烧蚀实验研究中进行研究。学习率初始化为0.1,分别在15个时期和30个时期后再除以10。训练在40个时代停止。重新标记模块包含在从第10个纪元开始的优化中,其中重新标记余量δ2默认设置为0.2。

4. Experiments

在本节中,我们首先描述三个公共数据集和我们的WebEmotion数据集。然后,我们证明了我们的SCN在合成和真实世界噪声人脸表情注释的不确定性下的鲁棒性。此外,我们还进行了定性和定量的研究,以证明SCN中各个模块的有效性。最后,我们将我们的SCN与公共数据集的最新方法进行了比较。

4.1. Datasets

RAF-DB: [22]包含由40名训练有素的人类编码人员用基本或复合表情注释的30000张面部图像。在我们的实验中,我们只使用了六种基本表情(中性、高兴、惊讶、悲伤、愤怒、厌恶、恐惧)和中性表情的图片,得到12271张训练图片和3068张测试图片。整个样品精度用于测量。
FERPlus:[4]是从FER2013扩展而来,用于ICML 2013挑战赛。这是谷歌搜索引擎收集的大规模数据集。它由28709个训练图像、3589个验证图像和3589个测试图像组成,所有这些图像都被调整到48×48像素。藐视包括在这个数据集中导致8个类。整个样品精度用于测量。
AffectNet:[32]是迄今为止最大的数据集,它同时提供了分类和V alence唤醒注释。通过在三个搜索引擎中查询与表达式相关的关键字,它包含了100多万幅来自互联网的图片,其中45万幅图片像FERPlus一样,是用8个表达式标签手工标注的。它有不平衡的训练和测试集以及一个平衡的验证集。验证集的平均等级精度用于测量。
The collected WebEmotion(收集的网络情感):由于不确定性的主要证据是不正确/有噪声的注释问题,我们从互联网上收集了一个极端噪声的FER数据集,称为WebEmotion,以研究具有极端不确定性的SCN的效果。WebEmotion是从Y ouTube下载的一个视频数据集(尽管我们通过为帧分配标签来使用它作为图像数据),包含一组关键字,包括40个与情绪相关的单词,来自亚洲、欧洲、非洲、美洲的45个国家,以及6个与年龄相关的词(即婴儿、女士、妇女、男子、老人、老年妇女)。它由相同的8个类和FERPlus组成,其中每个类都连接到几个与情感相关的关键字,例如,Happy连接到快乐、有趣、狂喜、得意和kawaii。为了获得关键词和搜索到的视频之间有意义的关联,只选择了前20个不到4分钟的爬网视频。这将导致大约41000个视频被进一步分割成200000个视频片段,限制条件是人脸(由MTCNN检测)出现至少5秒。对于评估,我们只使用WebEmotion进行预训练,因为注释非常困难。表1显示了WebEmotion的统计数据。元视频和视频剪辑将向研究社区公开。

4.2. SCN综合不确定度的评定

FER的不确定性主要来自于模糊的面部表情、低质量的人脸图像、不一致的标注和不正确的标注(即噪声标签)。考虑到只有噪声标签才能被定量分析,我们探讨了在标签噪声占RAF-DB、FERPLus和AffectNet数据集的比例分别为10%、20%和30%时SCN的鲁棒性。具体来说,我们随机选择每个类别的10%、20%和30%的培训数据,并随机将它们的标签更改为其他类别。在表2中,我们使用ResNet-18作为CNN主干,并将我们的SCN与基线(不考虑标签噪声的传统CNN训练)进行比较:i)从头开始训练,ii)使用Ms-Celeb-1M上的预训练模型进行微调[15]。我们还比较了SCN与RAF-DB上两种最先进的噪声容忍方法,即courdumnet[14]和metaleaner[46]。如表2所示,我们的SCN持续大幅提高基线。对于方案i),当噪声比为30%时,我们的SCN在RAF-DB、FERPLus和AffectNet上分别比基线提高13.80%、1.07%和1.91%。对于方案ii),在噪声比为30%的情况下,我们的SCN在这些数据集上仍然获得了2.20%、2.47%和3.12%的改进,尽管它们的性能相对较高。对于这两种方案,随着噪声比的增加,SCN的效益变得更加明显。课程网利用聚类密度度量数据复杂度来设计训练课程,避免了早期训练噪声较大的标注数据。元学习者将每一类中多个样本的特征集合为加权平均特征进行分类,这也可以削弱噪声标记样本的影响。课程网和元学习者都在很大程度上提高了基线,但仍不如简单的SCN。另一个有趣的发现是,在RAF-DB上SCN的改进要远远高于其他SCN数据集。原因如下。一方面,RAF-DB由复杂的面部表情组成,由40人通过众包方式进行标注,使得数据标注更加不一致。因此,我们的SCN也可以在没有合成标签噪声的情况下,对原始RAFDB进行改进。另一方面,AffectNet和FERPlus是由专家注释的,因此涉及的标签不一致,导致对RAF-DB的改进较少。

表2:SCN对合成噪声FER数据集的评价。否则我们会用一个从零开始训练的模型。
2020cvpr最佳人脸识别-Suppressing Uncertainties for Large-Scale Facial Expression Recognition_第5张图片
表3:训练前SCN对网络情绪的影响。第2列表示使用或不使用SCN进行微调。
2020cvpr最佳人脸识别-Suppressing Uncertainties for Large-Scale Facial Expression Recognition_第6张图片
SCNα的可视化研究:
为了进一步研究我们的SCN在噪声注释下的有效性,我们在RAF-DB上可视化SCN训练阶段的重要性权重α,噪声比为10%。在图三中,第一行表示用原始标签训练SCN时的重要性权重。第二行图像用合成的损坏标签进行标注,并使用SCN(无重标记模块)对合成噪声数据集进行训练。实际上,SCN将那些标签损坏的图像视为噪声,并自动抑制其权重。经过足够的训练周期后,在SCN中加入重新标记模块,并对这些噪声标记的图像进行重新标记(当然,由于我们有重新标记约束,许多其他图像可能没有重新标记)。在其他几个时代之后,它们的重要性权重变得很高(第三行),这说明我们的SCN可以“自我修复”损坏的标签。值得注意的是,重新标记模块中的新标签可能与“基本真相”标签不一致(见第1、4和6栏),但它们在可视化方面也是合理的。
2020cvpr最佳人脸识别-Suppressing Uncertainties for Large-Scale Facial Expression Recognition_第7张图片
图3:在我们的SCN中学习到的重要性权重的可视化,我们在重新标记前后(第2行和第3行)使用原始标签(第一行)和合成噪声标签在随机选择的图像上显示这些权重。

4.3. 基于真实世界不确定性的SCN研究

综合噪声数据证明了SCN自固化能力的有效性。在本节中,我们将SCN应用于可包含所有不确定性的真实FER数据集。
SCN上的WebEmotion进行预训练。我们收集的WebEmotion数据集包含大量噪音搜索关键字被视为标签。为了更好地验证SCN对真实世界噪声数据的影响,我们将SCN应用于WebEmotion进行预训练,然后在目标数据集上对模型进行微调。对比实验如表3所示。从第一行和第二行可以看出,在没有SCN的情况下对WebEmotion进行预训练,RAFDB、FERPlus和AffectNet的基线分别提高了6.97%、9.85%和1.80%。使用SCN对目标数据集进行微调可获得1%到2%的增益。使用SCN对WebEmotion进行预培训,进一步提高了RAF-DB的性能,从80.42%提高到82.45%。这表明SCN学习了WebEmotion的健壮特性,这对于进一步的微调是更好的。
2020cvpr最佳人脸识别-Suppressing Uncertainties for Large-Scale Facial Expression Recognition_第8张图片
图4:具有低重要性权重的RAF-DB(不带合成噪声标签)的十个示例。每一列对应一种基本情绪。人们可以猜测他们的标签和RAD-DB的基本真相标签都包含在文本中。

表4:真实世界外汇储备数据集的SCN。SCN的改进表明,这些公共数据集或多或少地受到不确定性的影响。
2020cvpr最佳人脸识别-Suppressing Uncertainties for Large-Scale Facial Expression Recognition_第9张图片
原始FER数据集上的SCN:我们进一步对原始的FER数据集进行实验来评估我们的SCN,因为这些数据集不可避免地会受到诸如模糊面部表情、低质量面部图像等不确定性的影响。结果如表4所示。从零开始训练时,我们提出的SCN提高了基线,分别在RADDB、AffectNet和FERPlus上分别提高了6.31%、0.7%和1.02%。MetaCleaner也提高了RAF-DB的基线,但比我们的SCN稍差。在预训练的情况下,我们在这些数据集上仍然获得了2.83%、1.73%和1.21%的改进。SCN和metaleaner的改进表明,这些数据集确实存在不确定性。为了验证我们的推测,我们对RAF-DB的重要性权重进行了排序,并在图4中给出了一些重要性权重较低的例子从左上到右下的基本真相标签是惊讶,中立,中性,悲伤,惊讶,惊讶,中立,惊讶,惊讶,惊讶。我们发现,在SCN中,低质量和遮挡的图像很难标注,并且更有可能具有较低的重要性权重。

2020cvpr最佳人脸识别-Suppressing Uncertainties for Large-Scale Facial Expression Recognition_第10张图片

4.4. 消融研究

SCN中三个模块的评价。为了评估SCN各模块对RAF-DB的影响,我们设计了一个烧蚀研究来研究WCE损耗、RR损耗和Relabel模块对RAF-DB的影响。实验结果如表5所示。以下是一些观察结果的结论。首先,对于这两种训练方案,在基线(第一行)中添加一个朴素的重新标记模块(第二行)会稍微降低性能。这可以解释为许多重贴标签的操作与基线模型是错误的。这间接表明,我们精心设计的重标记在低重要性群中的秩正则化是更有效的。第二,当增加一个模块时,WCE损耗的改善最大,使RAF-DB的基线从72%提高到76.26%。这表明,重新加权是我们的SCN贡献最大的模块。第三,RR损耗和重贴标签模块可以进一步提高WCE损耗2.15%。
比值γ的评估:在表6中,我们评估了RR损耗和WCELoss之间不同比率的影响。我们发现,为每次损失设置相同的权重可以获得最佳效果。将RR损失的权重从0.5增加到0.8会显著降低性能,这表明WCE损失更为重要。
δ1和δ2的评估:δ1是一个裕度参数,用于控制高、低重要性组之间的平均裕度。对于固定设置,我们从0到0.30进行计算。图5(左)显示了固定和学习δ1的结果。默认值δ1=0.15获得最佳性能,这表明裕度应该是一个合适的值。我们还设计了一个可学习的范例δ1,初始化为0.15。在原始数据中,Δ0.76%和δ0.05%分别为0.76%和142.05%。
δ2是确定何时重新标记样品的裕度。默认δ2为0.2。我们在原始RAF-DB上从0到0.5计算δ2f,结果如图5(中间)所示。δ2=0意味着如果最大预测概率大于给定标签的概率,我们重新标记样本。较小的δ2会导致大量不正确的重新标记操作,这可能会严重影响性能。较大的δ2导致很少的重标记操作,收敛到不重标记。我们在0.2中获得了最好的性能。
**β的评估。**小批样品中β的重要性较高。我们研究了合成噪声和原始RAF-DB数据集中0.9到0.5的不同比率。结果如图5(右图)所示。我们的默认比率是0.7,达到最佳性能。大β会降低SCN的性能,因为它认为很少的数据是不确定的。小β会导致对不确定性的过度考虑,不合理地降低了训练损失。

4.4. 与最新技术的比较

表7将我们的方法与RAF-DB、AffectNet和FERPlus上的几种最先进的方法进行了比较。IPA2LT[43]引入了潜在的地面真实性思想,用于不同FER数据集的注释不一致的训练。gaCNN[24]利用了基于补丁的注意力网络和全球网络。RAN[42]利用面部区域和原始面部的级联注意力网络。gaCNN和RAN由于裁剪的补丁和区域而非常耗时。我们提出的SCN不会增加任何推理成本。我们的SCN在RAF-DB、AffectNet和FERPlus上的表现分别为88.14%、60.23%和89.35%(IR50[9])

5. Conclusion

提出了一种自修复网络(SCN)来抑制人脸表情数据的不确定性,从而学习出鲁棒的FER特征。SCN由三个新的模块组成,包括自我注意重要性加权、排序正则化和重标记。第一模块学习每个人脸图像的权重,以获取训练的样本重要性,并用于权重损失。排序正则化确保第一个模块学习有意义的权重,以突出某些样本并抑制不确定样本。重贴标签模块尝试识别标签错误的样本并修改其标签。在三个公共数据集和我们收集到的WebEmotion上的大量实验表明,我们的SCN达到了最先进的结果,能够有效地处理合成和真实世界的不确定性。

你可能感兴趣的:(检测)