Gated Mechanism For Attention Based Multimodal Sentiment Analysis基于注意力的多模式情感分析的门控机制——阅读笔记

文章目录

    • 1.摘要
    • 2.导论
    • 3. 提出的方法
      • 3.1 上下文话语表示
      • 3.2 自注意力
      • 3.3 交叉注意
      • 3.5 深度多模态融合
    • 4.实验
      • 4.1 实施细节
      • 4.2 实验结果
    • 5. 结论

1.摘要

本文主要探讨多模态情感分析的三个方面。
(1)跨模态交互学习,即多种模态如何影响情绪;
(2)学习多模态交互中的长期依存关系;
(3)单模态和跨模态线索的融合。
对两个基准数据集进行了实验,CMU多模态观点水平情感强度(CMU-MOSI)和CMU多模态观点情感和情绪强度(CMU-MOSEI)语料库,分别产生83.9%和81.1%的准确度,与当前的最新技术相比,绝对准确度提高了1.6%和1.34%。

2.导论

已经提出了几种用于多模态情绪分析的方法尝试有效利用多模式信息。这些分为三类:独立学习模态并融合模态特定表示的输出的方法;共同学习两个或三个模态的交互的方法;从中明确学习贡献的方法这些单峰和跨峰线索,通常使用基于注意力的技术。
大多数现有方法建议以不同的粒度进行融合,或使用交叉交互模块将不同模态的特征耦合在一起。
为了学习更好的交叉模态信息,我们引入了新颖的条件门控机制来在交互过程中调制信息。这种门控机制根据语言信息,说话者的语气和话语的面部表情有选择地学习不同模态的相对重要性
捕获跨领域的长期依赖视频中的话语,我们在单峰上下文表示上应用了一个自我注意层。
最后,将自注意的单峰上下文表示和门控交叉交互表示馈入循环层,以获得每种话语的深层多峰上下文特征向量。

3. 提出的方法

我们提议的方法的主要贡献是:
(1)可学习的门控机制,可在交叉交互过程中控制信息流;
(2)自相关上下文表示,以捕获长期依赖关系;
(3)基于递归层的自我和门控交叉融合特征向量融合,以获得特定于模式的深度多峰特征向量。
Gated Mechanism For Attention Based Multimodal Sentiment Analysis基于注意力的多模式情感分析的门控机制——阅读笔记_第1张图片

3.1 上下文话语表示

将每种语态的话语水平特征序列提供给单独的Bi-GRU,并获得语态特定的语境话语表示H。形式上,针对文本模态的一系列话语(U1,U2,…,Uu)的上下文话语表示可以定义为: 在这里插入图片描述
下标T表示文本形式,A和V分别表示音频和视频形式。

3.2 自注意力

为了捕获长期依赖性,在上下文话语表示中使用了基于双线性注意的自匹配层。对于文本模式,自注意力可以表示为:
Gated Mechanism For Attention Based Multimodal Sentiment Analysis基于注意力的多模式情感分析的门控机制——阅读笔记_第2张图片公式2a计算自匹配矩阵; W∈Rd×d是一个可训练的矩阵,等式2b计算话语的自注意力得分,Ui和等式2c生成自发话语表示。

3.3 交叉注意

多模式情绪分析为学习不同模式之间的相互作用提供了机会。与Ghosal等人[10]中提到的多式联运注意的方法类似,我们提出了一种学习交叉交互向量的方法。对于一对文本(HT)和视频(HV)形式,共同注意矩阵(MTV∈Ru×u)可以定义为:
在这里插入图片描述文本(CVT∈Ru×d)和视频(CTV∈Ru×d)的交叉注意表示可以表示为:
Gated Mechanism For Attention Based Multimodal Sentiment Analysis基于注意力的多模式情感分析的门控机制——阅读笔记_第3张图片### 3.4 交叉交互的门控机制
为了克服单个模态中存在的噪声,我们提出了一种选通机制来选择性地学习交叉融合矢量。一对文本-视频模态的门控交叉融合矢量(FPQ∈Ru×d)可通过以下方式获得:
在这里插入图片描述我们将融合核函数定义为交叉交互和上下文表示的门控组合。交叉交互X(P,Q)是交叉参与向量(P)和上下文表示(Q)的非线性转换。选通函数G(P,Q)调制要从交叉交互传递到下一层的信息。
Gated Mechanism For Attention Based Multimodal Sentiment Analysis基于注意力的多模式情感分析的门控机制——阅读笔记_第4张图片◦表示逐元素乘积。

3.5 深度多模态融合

为了汇总来自自我和门控交叉交互的信息,我们使用Bi-GRU层为每个模态学习深度多模态特征向量。
在这里插入图片描述最后,每个模态的深度多模态特征向量将话语串联起来,并馈送到包含完全连接层的预测层,然后是softmax层以进行最终分类。

4.实验

4.1 实施细节

在实验中,对于CMU-MOSEI数据集,我们将Glove嵌入用于单词特征,将Facets 2用于视觉特征,将CovaRep 用于声学特征。对于MOSI数据集,我们将CNN网络的输出用于话语水平特征,将3D CNN特征用于视觉,将openSMILE 用于声学特征。
Facets 2:https://https://pair-code.github.io/facets/
我们对Bi-GRU进行了训练,其CMUMOSI数据集的隐藏大小为100,而CMU-MOSEI数据集的隐藏大小为200,对于密集层的正则化和ReLU激活,也使用了0.4的压降。我们使用了Adam优化器,其学习速率为0.0005,CMU-MOSI的批处理大小为16,CMU-MOSEI数据集的批处理大小为32,最后训练了75个时期。

4.2 实验结果

Gated Mechanism For Attention Based Multimodal Sentiment Analysis基于注意力的多模式情感分析的门控机制——阅读笔记_第5张图片Gated Mechanism For Attention Based Multimodal Sentiment Analysis基于注意力的多模式情感分析的门控机制——阅读笔记_第6张图片Gated Mechanism For Attention Based Multimodal Sentiment Analysis基于注意力的多模式情感分析的门控机制——阅读笔记_第7张图片

5. 结论

在本文中,我们提出了一种方法来改进多模态情感分析,该方法利用自注意力来捕获长期情境,并通过门控机制来选择性地学习跨人员特征。当单峰信息不足以决定情绪时,门控功能着重于交互作用,而当单峰信息足以预测情绪时,门函数则为交叉模态信息分配较低的权重。对两个众所周知的基准数据集(CMU-MOSI和CMU-MOSEI)的评估表明,我们提出的方法明显优于最新技术。
将来,我们将扩展针对现实世界数据的拟议技术,例如呼叫中心客户对话,其中由于音频质量差而导致文本和音频模式中的噪声都很高,从而导致较低的语音识别准确性。

你可能感兴趣的:(笔记,机器学习,深度学习)