【翻译】MEC 2017:多模式情感识别挑战

MEC 2017:多模式情感识别挑战

摘要:本文介绍了2017年多模态情感识别挑战(MEC)的基线,这是第一届亚洲情感计算和智能交互会议的一部分,(亚洲)2018年。MEC2017的目标是提高真实世界条件下情感识别的性能。中文自然视听情感数据库(CHEAVD)2.0作为挑战数据库是2016年MEC发布的CHEAVD的扩展。2017年MEC有三个子挑战,31个团队参与其中的全部或部分。27个队、16个队和17个队 团队分别参与音频(仅)、视频(仅)和多模态情感识别子挑战。生成音频(仅)和视频(仅)子挑战的基线分数。 音频(仅)和视频(仅)子挑战的基线分数是由支持向量机(SVM)生成的,其中音频特征和视频特征是分开考虑的。在多模态子挑战中,采用特征级融合和决策级融合,音频(仅)、视频(仅)和多模子挑战的基线为39.2%, 宏观平均精密度分别为21.7%和35.7%。

关键词:情感识别挑战,视听语料库,多模态特征,融合方法

一.前言

自动情感识别技术是通过分析人的语音、面部表情和身体姿态等来识别人的情感状态的技术。随着人工智能的发展 因此,人们对实现更自然的人机对话系统产生了极大的兴趣,情感识别作为人机交互的一个重要方面,受到了广泛的关注。 注意量[1-3]。

现有的情感挑战,如音频/视觉情感挑战(AVEC)[2,4],言语间情感挑战[5]及其前身在InterSpeech,面部表情识别与分析(FRA)[6],情感挑战在野外挑战(EmotiW)[1]或其他相关的任务(如中世纪[7,8]系列中的任务)已经被组织起来。这些主要是基于自发的数据库,这是对的一项重要努力, 罗摩情感识别。然而,在这些努力中使用的挑战数据库并不包括中文。由于不同语言和文化的情感表达不同,多模态情感识别挑战(MEC)提供了一个通用的平台和通用的基准数据集,促进了汉语多模态情感识别的研究。在我身上 2016年,登记了43个小组,26个小组提交了结果。大多数团队采用传统的方法和深度神经网络来提取多模态特征,并结合融合方法对进行融合,OST识别性能[9-13]。在多模子挑战中,大多数团队考虑了音频模式和视频模式。有趣的是,[10,11]通过自动语音识别。除了MEC2016介绍的工作外,[14]还讨论了各种视觉描述符,如标度不变特征变换[15],面向Gradi的直方图等。 Ents[16]和局部相位量化[17]用于情感识别。[18]学习特定任务的AU感知的[19]面部特征,并编码它们之间的潜在关系以进行鲁棒的表情识别。 [20]利用卷积神经网络,其次是长-短期记忆[21],提取序列级特征。[22]将3D卷积网络[23]引入情感识别, 该模型同时对视频的外观和运动进行建模。这些研究在多模态情感识别方面取得了显著的进展。

在2016年第一届MEC之后,MEC2017有三个子挑战,31个团队要么全部参加,要么参与其中的一部分。27、16和17组参加音频(仅)、视频(分别)。中文自然音频-视觉情感数据库(CHEAVD)2.0作为挑战数据集,是2016年MEC发布的CHEAVD[3]的扩展。伸长通过加入更多的样品来制备离子。CHEAVD2.0和它的前身一样,是从中国电影、肥皂剧和电视节目中挑选出来的,它们模仿现实世界的情况。

在本文中,我们提出了MEC2017的基线,提供了数据集、基线方法和挑战协议。音频(仅)和视频(仅)子挑战的基线分数是通用的。 支持向量机(SVM)中分别考虑音频特征和视频特征的,要生成多模子挑战的基线,可以采用不同的融合方法,例如同时考虑了特征级融合和决策级融合

组织者提供的基准音频和视频功能集可以免费使用-要么全部使用,要么部分使用。然而,它非常鼓励遵循最初的协议,如她所概述的。 如果与参与者进行比较,参与者最多可以在五个试验中上传他们的结果,以便在每个子挑战的测试集上进行评估。在FI中效果最好参赛作品将被认为是他们在比赛中的最后分数。每个注册团队应提交一份论文,介绍该小组使用的结果和方法,并进行同行评审。 

本文的结构如下。我们在第二节中详细描述了CHEAVD2.0。基线特征和实验结果分别见第三节和第四节,第五章是全文的结束语。

二、多模态情感数据库数据集

数据集作为挑战中数据驱动方法的一个重要方面,促进了特定任务的研究。为情感研究提供基本的汉语资源。 1.多模态交互在实际应用中的应用,我们收集了CHEAVD2.0,并将其作为MEC 2017的数据库.

【翻译】MEC 2017:多模式情感识别挑战_第1张图片

CHEAVD2.0是2016年MEC发布的CHEAVD的扩展,增加了4178个样本。CHEAVD2.0也是从中国电影、肥皂剧和电视节目中挑选出来的,背景中含有噪音。 去模仿现实世界的状况。所选的样品截图见图1。CHEAVD2.0有474分钟的自发情绪片段。527名发言者,从儿童到老年人,都包含在这个数据库中。录音按性别分布划分如下:58.4%为男性受试者,41.6%为女性受试者。这些样本的持续时间 范围从1秒到19秒,平均持续时间为3.3秒。

2017年MEC采用离散情感标注策略。为了保持情感标注的一致性,我们在CHEAVD2.0中请四个有经验的Tagger对每个样本进行标记。计算效率来评估注释的一致性,如表一所示。最后,以四个批注的平均数作为每个片段的唯一标签。 我们只选取了前八大情绪类,即快乐、悲伤、忧虑、愤怒、焦虑、惊讶、厌恶和中性,共7030个样本。评估情绪识别 将这些样本分为三组:训练集、验证集和测试集,分别包含4917、707和1406个样本。情感数据集的功能可在表二中找到。参与者可以在训练集上训练他们的模型,并根据验证集选择超参数,以找到最佳的情感识别。性能最高的型号,在提交阶段,参与者应将他们的情绪预测上传到测试集上。

【翻译】MEC 2017:多模式情感识别挑战_第2张图片

三、特征

A.声学特征

为了透明性和易复制性,我们使用了eGeMAPSv01a.conf开放源码openSMILE工具包[24]中给出的特性规范来提取扩展的日内瓦最小。 USTIC参数集,这也是AVEC 2016竞赛[25]和MEC 2016[3]中的基准特征集,这些特征对语音情感识别具有很强的鲁棒性[10]。

在基线音频特征集中,声低电平描述符包括光谱、倒谱、韵律和语音质量信息,详见表三。因为音频数据包含 长连续录音,它使用固定长度。提取函数的分段,它们以40毫秒的速度向前移动。总的来说,这些声学基线特征包含88个音频特征。

表三.2017年MEC多模态情感识别挑战的声学特征

Energy & spectral low-level descriptors (26)
听觉(响度)和,α比(50-1000 Hz/1-5 kHz)1,能量斜率(0-500 Hz,0.5-1.5 kHz)1,Hammarberg索引1,MFCC 1-42,频谱通量2
Voicing related low-level descriptors (16)
F0(线性和半音调),Formants 1,2,3(频率,带,Ampl.),谐波差H1-H2,H1-H3,log。HNR,Jitter(本地),Simmer(本地)

1分别计算浊音和无浊音帧;2分别计算浊音、无浊音和所有帧。

B.视觉特征

选择三个正交平面上的局部二值模式(LBPTOP)[26]作为基线视觉特征集,显示了其在已有文献[14,27,28]中的情感识别性能。

LBPTOP是一种动态纹理,它将纹理扩展到时域。在使用统一编码的同时,基本LBP有59个特征。LBPTOP将基本LBP从二维扩展到三维 在XY、XT和YT平面上分别应用相关的描述子,并根据直方图将它们连接在一起(Cf)。图2)。为了精确地获取本地信息,基于块的MET 利用HOD,将原始帧划分为2×2块。最后提取了2×2×59×3=708的LBPTOP特征。

为了减轻背景的影响,人脸预处理方法是必不可少的,包括灰度处理、人脸检测、人脸变换和人脸归一化等。面部预处理 hods遵循MEC 2016[3]中使用的方法,在Viola和Jones[30]的基础上应用跟踪算法和工具包[29]。对于lbptop,我们使用了所创建的开放源代码matlab代码。 

【翻译】MEC 2017:多模式情感识别挑战_第3张图片

第四章 BASELINE EXPERIMENTS

为了确保结果的完全可重现性,我们完全依赖于公共图书馆的科学学习来计算基线结果。通过与随机林、adaboost和支持向量机的比较,我们发现支持向量机是,用于小型数据集的矿石分类任务。该模型在训练数据集上进行优化,在验证数据集的基础上选择超参数,找出最优的情感识别模型。 

由于情绪状态在现实世界中的分布不均匀,我们选择宏观平均精度(MAP)作为这一挑战的主要衡量标准,其次是精度(ACC)。计算m 在EQ中给出了MAP和ACC的方法。(1)-(3)

【翻译】MEC 2017:多模式情感识别挑战_第4张图片

其中s表示情感类的数量。TPI和FPI分别代表第一情感类的真阳性预测数和假阳性预测数。PI为t 第一情感类的精确性。表四显示了音频(仅)、视频(仅)和多模子挑战的超参数和基线结果。表五比较了两种融合MET HODS中的多模态子挑战:特征级融合和决策级融合。三个子挑战的基线结果的混淆矩阵如图所示。3~5,分别

【翻译】MEC 2017:多模式情感识别挑战_第5张图片

从表IV中可以看出,优化的分类器在验证集和测试集上关闭ACC,而MAP显示最大的差距。这是因为ACC倾向于如果情感类标签分布均匀,ACC值较高。然而,在现实世界中,情感类的分布并不均匀,因此,我们可以看到地图。 是一种更严格的度量,用于评估系统在所有情绪类中的总体表现,而不考虑潜在的低百分比。因为有些情感课 有几个样本,地图在某些情况下不是很稳定。结果表明,少数民族情感课需要进一步努力。

【翻译】MEC 2017:多模式情感识别挑战_第6张图片

【翻译】MEC 2017:多模式情感识别挑战_第7张图片

【翻译】MEC 2017:多模式情感识别挑战_第8张图片

通过表四和表五,地图中音频(仅)、视觉(仅)和多模态子挑战的基线分别为39.2%、21.7%和35.7%。因此,音频模式具有最高的地图。 测试的三个子挑战设置,而视觉模式(仅)是最坏的情况。然而,人们也注意到决策级融合在MAP上有很大的改进。

通过图3~5,由于缺乏训练样本,我们发现焦虑、厌恶、悲伤、惊讶和忧虑难以分类。愤怒和悲伤很容易与其他情绪区分开来。 粗略的音频模式。而且,人们似乎可以通过视觉方式很好地区分快乐和其他情感。所有非中性样本极有可能被错误分类为由于阶级分布不平衡,这是一个人在现实生活中不得不面对的自然现象。

五.结论

本文介绍了2017年多模态情感识别挑战(MEC)的基线,重点介绍了挑战的数据、基线方法和协议。现有情绪挑战,如avec和EmotiW,是促进情感识别的重要努力。然而,在这些努力中使用的挑战数据集并不包括中文。然而, 考虑到汉语的文化差异和与发音有显著差异的一种不同的语言,了解汉语情感识别的现状是很有趣的。 IC的观点,鉴于它的色调性质。CHEAVD2.0被用作挑战数据集,包含7030个样本,因此比以前在该主题上的尝试要大。2017年MEC有三次 LINELES:音频(仅),视频(仅)和多模子挑战,分别声学特征和视觉特征是用开源工具包提取的,SIN基线评分,Gle模式子挑战是由一个开放源码的支持向量机分类器产生的,为了获得多模态子挑战的基线分数,考虑了多种融合方法.的基线分数 MAP中音频(仅)、视频(仅)和多模子挑战分别为39.2%、21.7%和35.7%。

 

 

你可能感兴趣的:(【翻译】MEC 2017:多模式情感识别挑战)