多模态情绪分析引起了越来越多的关注,并提出了许多模型。但是,当在现实世界中部署最先进的模型时,它们的性能会急剧下降。我们发现,主要原因是实际应用程序只能访问自动语音识别 (ASR) 模型的文本输出,由于模型容量的限制,这可能会出现错误。通过对ASR输出的进一步分析,我们发现在某些情况下,情感词 (文本情态中的关键情感元素) 被识别为其他词,这使得文本的情感发生变化,并直接损害了多模态情感模型的性能。为了解决这个问题,我们提出了情感词感知多模态细化模型 (SWRM),该模型可以通过利用多模态情感线索来动态细化错误的情感词。具体地,我们首先使用情感词位置检测模块来获取情感词在文本中的最可能位置,然后利用多模态情感词细化模块来动态细化情感词嵌入。将细化的嵌入作为多模式特征融合模块的文本输入,以预测情感标签。我们对包括MOSI-Speechbrain,MOSI-IBM和MOSIiFlytek在内的真实数据集进行了广泛的实验,结果证明了我们模型的有效性,该模型在三个数据集上超过了当前的最新模型。此外,我们的方法可以轻松地适用于其他多模式特征融合模型。
多模态情感分析 (MSA) 因其在人机交互中的潜在应用而成为新兴的研究领域。如何有效地融合包括文本,声学和视觉在内的多模式信息来预测情绪是一个非常具有挑战性的问题,并且已经被许多先前的研究解决。 一些工作侧重于将附加信息引入融合模型 ,例如不同模态特征 (Wu等人,2021) 和单峰情感标签 (Yu等人,2021) 之间的对齐信息。和其他工作考虑了 多模态数据之间的语义差距,并采用对抗性学习 (Mai等人,2020) 和多任务学习 (Hazarika等人,2020) 来将不同的模态特征映射到共享子空间中。
最先进的模型,当部署在现实世界中时,它们的性能会急剧下降。原因是输入文本由ASR模型提供,由于模型容量的限制,ASR模型通常会出现错误。为了进一步分析这个问题,我们基于现有数据集,CMU-MOSI(Zadeh等人,2016) 构建了三个真实世界的多模态情感分析数据集。具体来说,我们采用SpeechBrain,IBM和iFlytek等三个广泛使用的ASR api来处理原始音频并获得认可的文本。然后,我们将CMUMOSI中的黄金文本替换为ASR结果,并获得三个realworld数据集,即MOSI-SpeechBrain,MOSIIBM和MOSI-iFlytek。我们评估了当前最先进的模型Self-MM(Yu等人,2021),并报告了多模式情感分析任务的平均绝对误差 (MAE)。正如我们在图1(a) 中看到的那样,当模型部署在现实世界中时,模型性能明显下降。
对ASR错误的进一步深入分析表明,情感词替换错误会直接伤害MSA模型。原因是文本中的情感词是文本方式中检测情感的最重要线索,错误地识别情感可能会改变文本传达的情感。为了对情感词替换错误有一个直观的了解,我们以图1(b) 中的一个示例为例。
黄金文本是 “我真的对此感到沮丧”,但是ASR模型 (SpeechBrain) 错误地将情感词 “沮丧” 识别为 “设置”,这会导致文本情感语义的变化,并直接影响MSA模型的性能。我们在图1(b) 中列出了三个ASR api的MOSI数据集上情感词替换错误的百分比。MOSI-IBM上情感词替换错误的百分比为17.6%,这意味着100种话语中约有17种存在这种类型的错误。为了进一步证明替代错误对MSA模型的负面影响,我们通过是否存在替代误差将mosi-ibm测试一下数据分成两组。我们在测试一下数据上评估Self-MM,并观察到存在替代误差的组的误分类率高于另一组 (29.9% vs 15.8%)。这一结果表明情感词替换错误可能会损害最新的MSA模型。
为了解决这个问题,我们提出了情感词感知多模态细化模型,该模型可以检测情感词在文本中的位置,并通过结合多模态线索来动态细化所检测位置中的单词嵌入。 我们方法的基本思想如图1(c) 所示。
我们考虑利用多模式情感信息 (即低声和悲伤的面孔传达的负面情感) 和文本上下文信息来帮助模型重建输入嵌入的情感语义。具体来说,(1)我们首先使用情感词定位模块来检测情感词的位置,(2)同时利用强语言模型BERT来生成候选情感词。然后,(3)我们提出了基于多模态上下文信息的多模态情感词细化模块,以细化词嵌入。细化过程由两部分组成,过滤和加法。在过滤过程中,我们应用多模态门控网络从输入词嵌入中过滤掉无用信息,并使用多模态情感词注意网络利用候选情感词中的有用信息作为添加过程中过滤词嵌入的补充。最后,将精炼的情感词嵌入用于多模式特征融合。
我们在MOSISpeechBrain、MOSI-IBM和MOSI-iFlytek数据集上进行了广泛的实验,以证明我们提出的模型的有效性。
这项工作的主要贡献如下 :( 1) 我们提出了一种新颖的情感词感知多模态细化模型,用于多模态情感分析,该模型可以利用多模态情感信息动态重构有错误的ASR文本的情感语义,从而产生更稳健的情感预测;(2) 通过深入分析,我们验证了情感词替换错误对最先进的MSA模型的负面影响; (3) 我们在三个真实数据集上评估了我们的模型,实验结果表明我们的模型优于所有基线。
多模式情绪分析最近越来越受到社区的关注,并且已经进行了一些过程。总的来说,以前的工作提出了三个发现。
Chen等 (2017) 认为整体特征主要包含全局信息,可能无法捕获本地信息。因此,他们应用力对齐方式将视觉和声学特征与单词对齐,并进一步获得了单词级别的特征。为了有效地融合它们,他们提出了GME-LSTM(A) 模型,该模型由两个模块组成,门控多模式嵌入和具有时间关注的LSTM。但是,获得字级功能需要执行力对齐,这很耗时。为了解决这个问题,Tsai等人 (2019) 提出了MulT模型,该模型使用交叉模式注意来隐式地对齐不同的模态特征。有些作品专注于语义对齐,而不是在时间维度上执行对齐。Hazarika等 (2020) 认为异构数据之间的语义差距可能会损害模型性能,并提出了miso模型,该模型在多模态特征融合之前将不同模态数据映射到共享空间中。Wu等人 (2021) 首先利用跨模态预测任务来区分非文本模态与文本模态相比的共享语义和私有语义,然后融合它们。以上工作表明,执行跨模态对齐有助于多模态特征融合。
以往的研究大多采用两相管,首先提取单峰特征,然后将它们融合.Dai等人 (2021) 认为,它可能会导致性能不够理想,因为所提取的单峰特点是固定的,不能进一步提高受益于下游监督信号.因此,他们建议多模态端到端稀疏模型,可以优化单峰特征提取和多模态特征融合联合.实验结果对多模态情感检测任务表明,训练的模型在一个端到端的方式可以获得更好的结果比管道模型.
Yu等人 (2020) 认为引入单峰情感标签可以帮助模型捕获单峰情感信息并对模态之间的差异进行建模。在此基础上,他们建立了ch-sims数据集,该数据集不仅包含多模式情感标签,还包含单峰情感标签。在此基础上,他们提出了一个多任务学习框架,以同时利用两种类型的情感标签。但是,此方法需要单峰标签,这对于大多数现有数据集而言是不存在的。针对此问题,Yu等 (2021) 提出了自MM模型,该模型首先利用单峰标签和多峰标签之间的关系生成单峰标签,然后使用多任务学习来训练模型。这两项工作都解决了引入单峰标签的有用性。
但是,即使提出了许多模型并在基准数据集上获得了有希望的结果,但是当在现实世界中部署MSA模型时,考虑噪声输入的工作很少。Chen等人 (2017) 提出了门控多模态嵌入来滤除声学和视觉数据中的噪声。Pham等人 (2019) 认为视觉和声学数据可能不存在,并提出了MCTN模型来处理它。Liang等人 (2019) 和Mittal等人 (2020) 也主要致力于处理视觉和声学数据引入的噪声,它们的模型基于单词级特征,这些特征是通过将音频与黄金文本对齐而获得的。只有一项工作 (Dumpala等人,2018) 考虑到文本由ASR模型输出,这可能是错误的。但是这项工作没有研究ASR错误如何影响MSA模型,也没有评估数据集上的SOTA MSA模型。此外,所提出的模型在训练时需要黄金文本,既费时又费力。
与上述工作相比,我们在现实世界的数据集上评估了SOTA MSA模型,并观察到由于错误的ASR文本,模型的性能急剧下降。通过对ASR输出的深入分析,我们发现ASR文本中的情感词替换错误可能直接损害MSA模型。为了解决这个问题,我们提出了多模态情感词感知细化模型,该模型仅在训练和测试短语中使用ASR文本。
在本节中,我们将详细描述多模态情感词感知细化模型。图2给出了我们提出的模型的说明。我们的模型由三个模块组成,包括情感词定位模块,多模态情感词细化模块和多模态特征融合模块。我们首先使用情感词位置模块来检测情感词的可能位置,然后利用多模式情感词细化模块来动态细化所检测位置中的词嵌入。最后,将改进的单词嵌入输入到多模式特征融合模块中,以预测最终的情感标签。
情感词位置检测模块的核心思想是找出情感词在ASR文本中的可能位置。请注意,它不同于根据单词语义来定位情感单词,因为ASR模型可能会将情感单词识别为中性单词,这使得很难正确定位。例如,给定一个黄金文本 “我对此感到非常沮丧”,ASR模型将其识别为 “并且我真的为此做好了准备”。模型很容易将单词 “set” 标记为中性词,因此,我们选择检测情感词的位置,而不是对其进行定位。
为了实现这一目标,我们考虑采用一种强大的语言模型,因为该语言模型可以对情感词的上下文信息 (例如句法和语法信息) 进行建模,并为目标位置预测合适的词。具体来说,我们选择BERT模型 (Devlin等人,2019) 作为我们的语言模型,因为蒙面语言建模预训练目标完全满足我们的需求。给定句子 {w1,w2,...,wnl},我们首先按顺序掩蔽句子中的每个单词wi,在实践中,我们将单词替换为特殊单词 [mask]。例如,我们屏蔽句子中的第一个单词,并获得 {[mask],w2,...,wnl}。然后,我们使用BERT模型来预测蒙面词位置的可能词。我们根据预测概率对预测的候选词进行排序,得到前k个候选词Ci = {ci 1,ci 2,...,ci k}。
接下来,我们使用情感词典 (Hu和Liu,2004; Wilson等,2005) 将情感词与候选词区分开,ki是对应于位置i的选定情感词的数量。数字越大,位置越可能。并且我们获得了情感词的最可能位置,s = arg max({k1,k2,...,knl })。考虑到在某些情况下句子中没有情感词,我们使用情感阈值来过滤掉不可能的词。实际上,我们使用门掩码p来记录它,如果ks大于k/2,则p为1,否则为0。
为了减少ASR错误的负面影响,我们提出了多模态情感词细化模块,从两个方面完善情感词的词嵌入。一种是我们使用多模态门控网络从输入字嵌入中过滤掉无用的信息。另一个是我们设计了多模式情感注意网络,以结合BERT模型生成的候选词中的有用信息。
给定一个话语,它包括三个模态未对齐特征,单词嵌入,声学特征和视觉特征,我们将它们表示为
(1)为了获得与每个单词相对应的多模态信息,我们利用伪对齐方法来对齐特征。我们将声学和视觉特征分成不重叠的特征组,其长度为和 分别对每组中的特征进行平均,得到对齐的特征,
(2)为了获得上下文感知的表示,我们应用BERT模型和LSTM网络对特征进行编码,产生hi = {hi t : 1 ≤ t ≤ nl,hi t ∈ Rdi h},i ∈ {v,a,l}。
(3)此外,我们还使用LSTM网络来融合声学和视觉特征,以捕获高级情感语义并获得
随后,我们提出了多模态浇注网络过滤单词嵌入,由非线性层实现。动机是ASR模型可能会错误地识别情感词,从而导致文本的情感语义受损。因此,我们利用多模态情感信息来决定要传递多少输入字嵌入的信息。具体来说,我们连接了单峰上下文感知表示,,hl s,hv s,ha s和双峰表示hva连接在检测到的位置s中,并将它们馈送到非线性神经网络中,从而产生门值gv。然后使用门值从单词嵌入中过滤掉无用的信息。为了使模型忽略不可能的模型,我们使用门掩码p来实现它。
其中W1 ∈ R1 × i ∈{l,v,a,va} di h,b1 ∈ R1是多模态门控网络的参数。
此外,我们提出了一种新颖的多模式情感词注意网络,以利用BERT模型生成的候选词中的情感相关信息,其中一半以上是情感词,以补充单词嵌入。例如,ASR模型将 “upset” 识别为 “set”,我们首先要删除 “set” 的无用信息,然后将负面情感词的信息合并以重建原始情感语义。我们使用线性层来实现多模态情感词注意网络。我们首先将候选词的词嵌入和多模态表示,,和在最大可能的时间步长s。然后,s我们将它们传递到线性层并获得注意力得分。将注意力得分输入softmax函数以获得注意力权重。最后,我们将权重应用于候选词嵌入,并获得情感嵌入。
其中是多模态情感词注意网络的参数。
此外,候选词中可能没有合适的词。因此,我们合并了特殊单词 [MASK] xmask的嵌入,以使BERT模型根据上下文处理此问题。然后,我们设计了一个聚合网络,以平衡特殊单词嵌入xmask和情感嵌入re的贡献。最后,我们将rad添加到过滤后的单词嵌入ul s中,并获得目标单词的精炼单词嵌入rl。
其中是可训练参数。
我们在本节中描述了我们的多模态特征融合模块,并且注意到我们提出的细化方法仅修改文本输入令牌嵌入,这使得它易于适用于基于BERT的其他多模态特征融合模型,例如miso (Hazarika等人,2020)。
我们首先使用BERT模型对精炼词嵌入进行编码并以 [CLS] 作为文本表示,表示为vl。然后,我们使用两个LSTM网络对视觉和声学特征进行编码,并将第一个单词的表示作为视觉表示vv和声学表示va。最后,我们使用非线性层将它们融合在一起,以捕获它们之间的相互作用。(ReLU激活函数是一个简单的计算,如果输入大于0,直接返回作为输入提供的值;如果输入是0或更小,返回值0。)
w4是融合网络的可训练参数。
我们利用线性层来预测最终的情绪回归标签。
其中,W5 ∈ R1 × df v,b5 ∈ R1是预测网络的可训练参数。此外,为了增强捕获单峰情感信息的模型,我们使用单峰标签生成模块 (ULGM) (Yu等人,2021) 生成伪单峰情感标签,并采用它们以多任务学习方式训练我们的模型。有关更多详细信息,请参阅Yu等人 (2021)。
我们在CMU-MOSI上构建了三个真实世界的数据集,包括mospeechbrain,MOSI-IBM和MOSI-iFlytek (Zadeh等人2016)。
CMU-MOSI CMU多模式意见级情感强度 (CMU-MOSI) 由从YouTube网站收集的93个视频组成。视频的长度从2-5分钟不等。这些视频被分成2,199短视频片段,并以从-3 (强烈负面) 到3 (强烈正面) 的情感得分进行标记。对于多模态特征,我们使用Facet提取视觉特征,其可以从每个帧中提取面部动作单元 (Ekman等人,1980)。通过应用COVAREP (Degottex等人,2014) 获得声学特征,其包括12个Mel-频率倒谱系数 (mfcc) 和其他低电平特征。
但是,由专家转录员从相应的视频中手动转录所提供的MOSI数据集中的话语文本,这对于实际应用程序以这种方式获取文本是不现实的。为了评估现实世界中的模型,我们将数据集中的手动黄金文本替换为ASR模型输出的文本。我们采用强大的ASR模型和两个广泛使用的商业api来生成文本。Ravanelli等人 (2021) 发布的利用的ASR模型建立在transformer编码器-解码器框架上,并在Librispeech数据集上训练 (Panayotov等人,2015)。我们使用的商业api是IBM1和iFlytek2语音到文本的api,它们被研究人员和软件开发人员广泛使用。最后,我们应用三个ASR模型将视频转录为文本,并构建三个新的数据集,即MOSI-SpeechBrain、MOSI-IBM和MOSI-iFlytek。我们在附录A中报告了MOSI上采用的ASR模型的WER结果。注意到,我们不采用MOSEI (Bagher Zadeh等人,2018),因为它不提供提取的特征和注释的情感标签的原始视频片段,并且我们不能处理原始音频。
我们使用Adam作为优化器,学习率为5e-5。批量大小为64。在检测情感词位置时,情感阈值被设置为0.5。候选词k的数量为50。该模型的其他超参数在附录b中报告。所有实验均在Nvidia Tesla P100 GPU上运行。我们运行五次并报告平均性能。我们使用的随机种子是1111、1112、1113、1114和1115。
MOSI-SpeechBrain、MOSI-IBM和MOSI-iFlytek数据集,在之前的工作 (Yu等人,2021) 之后,我们采用2级精度 (Acc2) 、F1得分 (F1) 、平均绝对误差 (MAE),和相关性 (Corr) 作为我们的评估指标。对于Acc-2和F1-Score,我们以两种方式计算它们,即负/非负 (Non0-Acc,Non0-F1) 和负/正 (Has0-Acc,Has0-F1)。由于预测结果是真实值,因此我们通过将情感得分映射到标签中来获得情感分类标签。
我们将我们提出的模型与以下基线3进行比较。TFN (Zadeh等人,2017) 使用三重笛卡尔乘积来捕获单峰、双峰和三峰相互作用。LMF (Liu等人,2018) 使用低秩张量来加速多模态特征融合过程。MulT (Tsai等人,2019) 使用交叉模态变压器来融合多模态特征。Miso (Hazarika等人,2020) 采用多任务学习来将不同的模态特征映射到共享子空间中。Self-MM (Yu等,2021) 首先生成伪单峰情感标签,然后采用它们以多任务学习的方式训练模型。
表1中,我们显示了MOSISpeechBrain,mosi-ibm,mosi-iflytek数据集上的结果。并且我们还在表格的最后一行列出了SOTA模型Self-MM在原始MOSI数据集上的结果,用于Self-MM在理想世界和现实世界中的性能比较。从结果中可以看出,Self-MM在MOSI-Gold数据集上比其他数据集获得了最佳结果,这表明ASR错误损害了MSA模型。我们还观察到,更好的ASR模型可以帮助MSA模型获得更好的性能。但是需要注意的是,根据上一节的分析,当前的ASR模型仍然不能对现实世界中的MSA模型产生满意的结果。
比较基于特征的模型 (包括TFN,LMF和MulT) 和基于finetuning的基线 (例如miso和Self-MM),我们可以发现基于finetuning的模型获得了更好的结果。我们认为,基于微调的模型可以使BERT编码器适应目标任务并学习更多信息的文本表示,这也使它们随着文本质量的提高而受益更多。
与基线特别是自MM相比,我们的模型可以在所有评估指标中获得更好的性能,因为我们的模型可以检测情感词的替换错误,然后通过从输入词中过滤掉无用的信息并结合有用的信息来完善单词嵌入以重建文本模态中的情感语义。由语言模型生成的候选词。我们还观察到,与MOSI-iFlytek上的Self-MM相比,我们的模型的改进较小。我们认为主要原因是MOSI-iFlytek上的情感词替换错误较少。
我们进行消融实验以区分每个部分的贡献。我们的模型有几种不同的变体。SWRM是我们提出的完整模型。SWRM w/o Position不使用情感词位置定位模块,仅使用特殊词 [MASK] 的信息来动态细化所有词。SWRM w/o注意仅在多模态情感词精化模块中结合特殊词 [MASK] 的信息来精化该词。SWRM w/o多模态仅基于文本特征执行多模态情感词注意和多模态门控网络,而没有声学和视觉特征。
表2显示了我们模型的变体的结果。烧蚀情感词位置模块后,SWRM w/o位置获得的结果比SWRM差,这表明找到合适的词进行细化非常重要。SWRM w/o注意与SWRM w/o位置之间的比较进一步证明了这一结论。SWRM w/o注意首先检测到正确的位置,然后结合特殊单词 [MASK] 的信息,这比SWRM w/o位置具有更好的性能。但是没有注意力的SWRM仍然比SWRM差,这表明使用注意力网络合并候选词中的额外信息对于完善很有用。比较SWRM之间的SWRM w/o多模态,我们可以发现该模型受益于视觉和声学特征。这符合我们的期望,因为多模态特征提供的情感信息可以帮助模型检测情感词并结合候选词中的情感相关信息。
为了直观地了解我们提出的模型,我们在图3中显示了一个案例。我们可以看到,我们的模型首先根据上下文检测到最可能的位置,然后发现位置中的输入词可能被错误识别,因为否定词 “残酷” 与微笑或兴奋的语气之间存在不匹配。因此,我们的模型决定合并相关的情感来自候选单词的信息,以完善单词嵌入。如图3所示,我们的模型更注重候选词 “特殊” 、 “酷” 、 “令人敬畏”。“酷” 正是黄金词,其他词与之具有相同的情感极性。受益于参与的候选词,我们的模型对输入字进行了细化,并重构了其情感语义。最后,将细化的字嵌入输入到多模态特征融合模块中,以预测情感标签。
在本文中,我们观察到SOTA MSA模型部署在现实世界中时会出现明显的性能下降,并且通过深入分析,我们发现情感词替换错误是引起它的一个非常重要的因素。为此,我们提出了情感词感知多模态细化模型,该模型可以通过合并多模态情感信息来动态细化单词嵌入并重构受损的情感语义。我们在MOSI-SpeechBrain、MOSI-IBM和MOSI-iFlytek上评估了我们的模型,结果证明了我们的方法的有效性。对于未来的工作,我们将探索利用多模式信息来检测情感词的位置。