本文是对interspeech会议论文“Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and Transcripts”的阅读笔记,该文章是多模态情感识别领域的好文章,使用了语音和文本两种模态数据,深度学习网络为LSTM和CNN。
下载地址https://www.isca-speech.org/archive/Interspeech_2019/pdfs/3201.pdf
在人类认知和理解过程中,大量种类不同、彼此互不的不同模态线索被接受。人类交流中的各种情绪状态反映出不同模态线索的多样性。多模态情绪识别最近的进展是利用基于不同种类特征如文本、音频、视频图像的深度学习技术来实现卓越的表现。这篇论文着眼于将跨模态融合技术运用于情感识别的深度学习网络,使用的模态数据为说话人话音和相应的文本记录。
作者研究了长短时记忆循环神经网络(LSTM)使用预训练的词向量(pre-trained word embedding)来进行基于文本的情感识别以及卷积神经网络(CNN)使用话语(段)级别(Utterance-Level)特征描述符来进行基于话音的情感识别。各种融合策略实施在这两种模型上来为每一种情绪类别给出一个综合评分。每一种情绪的模态内部(intra-modality)动态信息被捕获在为特定模态设计的神经网络中。融合技术被设计用于获取跨模态(inter-modality)动态信息。对于这类模态内部联系和跨模态联系的理解可参考论文“Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering“并参考下图。注:下图并非本论文的图,只是用来帮助理解inter-和intra-modalitt。
作者在IEMOCAP多模态情感识别数据库上进行说话人与独立会话实验( Speaker and session-independent experiments)来论证(show)本文提出方法的有效性
关键词:emotion recognition,multi-model,fusion techniques,deep learning
一些名词:
frame-level:帧级别
Utterance-Level:话语级别(段级别),也可以理解成句子级别或者段级别,是一个人说的一段话,比frame级别高。
dialog-level:对话级别,是两个人的对话,情感识别利用自身和两个说话人之间的关系来识别情感。
本文方法的流程图见下图1:
这一部分主要将特征提取和提出的基于文本的情感识别神经网络框架。特征提取模块为每个语句(utterance)提供了一种表示,其上下文依赖关系在LSTM的神经网络中建模。
采用CNN卷积神经网络从话语的转录文本(utterance transcriptions)中提取特征。基于特征提取的神经网络如CNN会学习出输入句子的抽象表达,这些语句中包含有基于单词和单词概率的语义。使用一个带有卷积层和最大池化层的简单CNN网络作为特征提取器。
CNN的输入形式是300维的词向量。这些300维的词向量是基于Fast-Text词嵌入提取的。(简单来说,每个英文单词都会用一个300维词向量表示)。卷积层包含三个卷积核,尺寸分别为f1,f2,f3,同样的,有三个输出通道。我们使用这些卷积核执行一维卷积,然后对其输出执行最大池化(maxpooling)。池化后的特征最终被投影到维度为DT的稠密层上,其经过激活函数后的向量被用作文本表示T∈ R D T R^{D_T} RDT。
架构包含一个LSTM层和三个全连接层。循环网络中的连接获取了上下文信息来对话语给出的文本进行分类。这有利于情感标签分类,因为连续的单词为情感分类提供了额外的线索。每个话语(utterance)DT维的特征数据被喂到time step=N1的LSTM层。全连通层的隐含层节点数N2、N3和N4的数量是递减的,最后一个(N4)的是情感标签类别的数量。
在特征提取阶段对每个话语进行声学特征提取,这些声学特征将被用于构建CNN进行情感识别。这个CNN模型叫做联合CNN模型,因为模型的输入是初步融合(early fusion)后的数据,这些数据具有更好的性能。
话音信号的特征提取使用到了openSMILE工具箱。interspeech13年的挑战赛上提供了包含6373维静态特征的特征集,称为ComParE特征集,可以通过openSmile开源包来获得。数据集包括LLDs和HSDs。特征集的详细描述可参见这篇描述“https://www.cnblogs.com/liaohuiqiang/archive/2018/12/22/10161033.html”
在这些特征中,我们进行min-max标准化 和基于L2范数的特征选择,将特征维数降低到Ds 。这样低维度的基于话音的特征S∈ R D s R^{D_{s}} RDs被用于后续输入。
用于获取语音情感分类的神经网络由两个ReLU激活的卷积层组成,每个层之后是一个最大池化层。然后是三个全连接层。每个卷积层都有Nf数量的卷积核(filters),每个卷积核的宽度为Nw。卷积层进行单位步长(unit stride)的卷积操作,用于学习情感类别。将第二卷积层的输出扁平化(flattened)后,将其送入两个大小分别为Nc2和Nc3的全连接层。最后输出层的尺寸为情感类别标签的数量。
第2节中介绍的基于lstm的模型也可以用于语音。我们观察到,它也提供类似的性能。尽管如此,本工作还是坚持使用CNN进行语音,因为它的融合性能比基于LSTM的系统要好,可能是因为采用了完全不同的建模方法。
该方法结合各模型输出特征用于后期融合(Late Fusion),并将一开始的文本和声学特征连接用于早期融合(Earlt Fusion)。
早期融合是一种很常见的融合技术。在特征级融合中,我们将通过文本和语音的特征提取阶段得到的特征信息结合起来。话语(一段语句utterance)的最终输入表示是
U D = t a n h ( ( W f [ T ; S ] + b f ) ) U_D=tanh((W^f[T;S]+b^f)) UD=tanh((Wf[T;S]+bf))
第三部分提到的CNN网络的卷积层输入就是尺寸为 U D = ( T ; S ) U_D=(T;S) UD=(T;S)的特征向量,这个特征向量就是从早期融合中获得的。这有助于捕获在同一模式下文本和语音之间的模态间动态。我们称这个CNN网络为joint-CNN。
作者在文本单模态lstm情感识别网络和联合cnn情感识别网络的输出中考虑了三种类型的决策级融合(decision-level fusion)。我们考虑了联合模型与特定模态模型的后期融合。除了在联合cnn模型中捕获到的跨模态动态联系(inter-modality dynamics),后期融合还能捕获到更多有用的跨模态动态信息。
这种决策级的融合是通过结合多个系统的得分来实现的。如果在相似的特征空间上建立不同的模型,则使用求和组合规则,如集成方法。这样给定一段语句的平均融合输出分数为:
S c o r e = S c o r e ( T ) + S c o r e ( S , T ) 2 Score=\frac{Score(T)+Score(S,T)}{2} Score=2Score(T)+Score(S,T)
后期融合①对来自基于lstm的文本情感识别网络的输出和联合cnn模型的输出具有相同的偏好。(简单的决策级得分融合,也可调整权重)
在该方法中,我们使用基于lstm的文本情感识别模型的输出类别概率与联合cnn模型的输出类别概率根据不同权重值进行后期融合。对给定话语的输出得分加权平均融合后为:
S c o r e = ω 1 ∗ S c o r e ( T ) + ω 2 ∗ S c o r e ( S , T ) Score=\omega_{1}* Score(T)+\omega_{2}*Score(S,T) Score=ω1∗Score(T)+ω2∗Score(S,T)
其中, ω 1 , ω 2 ≤ 1 \omega_1,\omega_2\leq1 ω1,ω2≤1,且 ω 1 + ω 2 = 1 \omega_1+\omega_2=1 ω1+ω2=1。根据验证数据的性能,采用试错法确定权重。
输出概率也可以使用乘积规则进行组合:
S c o r e j = S c o r e j ( T ) ∗ S c o r e j ( S , T ) ∑ j ′ ( T ) ∗ S c o r e j ′ ( S , T ) Score_j=\frac{Score_j(T)*Score_j(S,T)}{\sum_{j'}^{}(T)*Score_{j'}(S,T)} Scorej=∑j′(T)∗Scorej′(S,T)Scorej(T)∗Scorej(S,T)
其中, j ′ ≠ j j'\neq j j′=j且j代表情感标签分类的下标。基本假设是,特征空间是不同的,并且分类条件独立。这是非常有用的,因为我们正在构建一个特定领域的模型,并将其与使用不同特征表示的jointCNN相结合。采用后期融合技术会进一步改善了联合cnn模型表现出的跨模态动态特性。
多模态情感识别任务在IEMOCAP数据库上进行。它是一个数据库,包括音频、视频、文本转录和动作捕捉数据,这些数据来自10对演讲者之间的互动。这是多模态情绪识别任务中最常用的数据集之一。受试者参与情感互动,共分为五个阶段,每个阶段有一对受试者。这些视频被分割成带有情绪标签的话语(句段),这些注释包括9个分类和3维度标签。IEMOCAP数据集有大约12个小时的口语内容,是该任务最大的公开可用数据集之一。我们将情绪分为六大类(愤怒、快乐、悲伤、中性、兴奋和沮丧)。每段录音至少有3个标注者进行标注。实验使用的是大多数人对情绪标签有一致看法的录音。
我们考虑六个情绪类别,以保持与最近的文献中的多模态情绪识别一致。现有文献大多是基于语音的情感识别,只考虑其中的四个类别(不包括兴奋和沮丧)。然而,由于情绪类之间的混淆程度较大,以及情绪类的分布变化,6分类模型的性能会下降。一些多模态系统只考虑四到五类。所提出的系统和基线在相似的评估(四类分类任务)下优于同类系统,因此本文不将它们包括在内进行比较。
训练和验证数据是使用由8个发言者在120个视频(5810个段话语)组成的前4个会话创建的。第五个会话,包括31个视频(1623个段)用于测试。通过这种方法,我们可以确保测试的演讲者和会话没有被训练好的模型训练过。验证集被选为训练数据的20%。
基于文本和语音的情感识别的超参数细节和所提方法的其他参数如表所示。对于单模态和双模态架构,Adam优化器的初始学习率为损失为0.001,loss函数用的是交叉熵损失(cross entropy loss)。训练过程中CNN进行了20个epoch,LSTM进行了40个epoch,用的是早停法(Early Stopping)。
验证损失(泛化损失 The validation loss)的监测耐心系数(可以理解为一个阈值)为6。LSTM层的dropout参数设置为0.2用于进行正则化。文本特征提取使用单层CNN,其超参数如表所示。LSTMs和CNNs使用Keras工具包实现。
通过实验来和先进的多模态情感识别系统进行比较,观察在具有相似的输入特征表征,相同的分类标签的数目和类型,以及相似的评估方案时的实验结果。在文献中,多模态情感识别通常采用加权正确率(WA)、非加权正确率(UA)或F1评分(F1)进行评价。我们将所有这些措施考虑在内与其他文献方法进行了公平的比较。
我们比较了所提出的方法与最先进的语言水平系统的性能。此外,还考虑了对话级系统,以分析除了句段级特征之外,所提供的上下文信息对该系统性能的影响。
表2显示了不同融合技术下所提方法的性能,其参数如表1所示。通过加权精度(WA)和F1评分来评价平均分类性能。在IEMOCAP数据库的中,有384句是“中性”情绪,而只有144句是“快乐”情绪。非加权精度(UA)计算特定情绪类别召回的平均值,对IEMOCAP等不平衡数据集有利。
早期融合是对单模态系统的改进措施。单模态系统的后期融合比早期融合捕获更多的模态间动态联系。早期和后期融合的组合进一步提高了性能。joint-CNN和LSTM系统的加权和组合提供了最佳的非加权精度,而这些系统的输出组合提供了最佳的总体精度。在所有系统中,支持度(support)最小的“happy”类别的类级性能最差,而支持度最大的“sad”类别的类级性能最优。在“高兴”和“兴奋”这两个类别中,混淆率最高为33%。
本文提出的方法与表3中的基线系统进行比较。这两种提出的方法在所有性能度量上都优于TFN。最后的Fusion-III方法表现优于最先进的基线系统(MFN)的所有评估指标。值得注意的是,所提出的方法只使用文本和语音模态,而基线也使用视觉特征进行分类。然而,提出的融合方法在基线系统上更有提高。
我们将对话级的情感识别模型纳入比较,即ICON和cLSTM,以了解我们的句段级系统在表现上的差异。这也如表3所示,该融合方法的性能优于同样使用视觉特征的cLSTM融合方法。
基于输出规则的融合结果以极小差距位于ICON模型下方。这表明,最先进的句段水平的表现对于对话水平情感识别模型是有竞争力的。实验评估验证了通过选择决策级的输出组合模型,捕获跨模态间的动态信息,可以获得最先进的句段级情感识别效果。
作者提出了一种新的深度学习模型融合技术,以改进多模态场景中的情绪识别。基于文本和语音模型的早期和后期融合技术的组合利用了跨文本和话音内容的互补信息。当在标准的基准标记数据集上评估时,它们可以达到最先进的段级识别性能。该模型在决策过程中充分利用了说话人自身和说话人其他因素的影响,其性能接近于现有的最好的多模态情感识别模型。这表明适当的建模和融合方法是多模态情感识别的一个很好的方向。未来的研究将集中于结合视频片段特有的视觉特征和模型,通过融合来帮助决策。