论文笔记 Multimodal Relational Tensor Network for Sentiment and Emotion Classification

标题 论文笔记 Multimodal Relational Tensor Network for Sentiment and Emotion Classification

摘要:受 (Zadeh et al., 2017) and (Poria et al., 2017)影响,提出关系张量网络体系结构,使用一个片段内模态间的相互作用,也考虑在一个视频片段的序列,模拟片段间模态间的相互作用。我们还通过以下方式生成丰富的文本和音频表示:利用更丰富的音频和语言上下文,以及融合基于文本极性分数的细粒度的知识。
1 Introduction介绍
情绪被定义为对重大事件的简要有机同步的评价,而情感则被认为是对对象或人更持久的信念和倾向
本文提到的技术:(1)一种在多模态时间段中新的跨模态融合技术(2)使用丰富的浅层语义领域知识,包括大量的心理语言学特征和资源进行情绪和情感分类(3)使用一种新的方法和结构提取情感感知声学音素水平特征。
text modality: (i) 融合词库作为附加输入特征 (ii) 融合极性鉴别词法句法细粒度分数作为附加输入特征(iii)丰富的上下文化嵌入融合,作为分类管道的附加输入特征。
audio modality, 使用了一个新的 pipeline生成iVectors和音素级的话语特征。对于多模态信息融合,探讨了利用模态内和模态间,并融合在一个新的关系张量网络架构。
3 Model Description 模型描述
数据集为a part of the CMU Multimodal Data SDK。文本特征:Glove embeddings ,音频特征:基于COVAREP,视觉特征提取:基于FACET。提取了文本和音频模式的各种附加功能,如以下章节所述。
3.1 Text
传统方法主要依赖于单词向量表示和从片段中自动发现特征。建模时,研究深管道 deep pipeline中的一些传统方法和特征以及这些对分类器的影响。
3.1.1 Lexico-syntactic Rule based features基于词法句法规则的特征
内在地理解更深层次的文本的词汇句法模式,将它们与世界知识联系起来,提取有意义的推论,如情感和情感。我们探索了Vader规则,用于情绪和情绪诱导。
论文笔记 Multimodal Relational Tensor Network for Sentiment and Emotion Classification_第1张图片
3.1.2 Sentiment Lexicons 情感词库
3.1.3 Contextualized Language Embeddings
上下文深度词向量表示,这些字向量是深层双向语言模型内部状态的学习函数。使用ELMo学习一个向量堆叠的线性组合,ELMo词表示是整个输入句子的函数。
3.2 Audio Features 音频特性
除了COVAREP(包括多种帧级声学特征)提出了两个额外的特征集,i-矢量特征和音素水平的特征。
3.2.1 I-vector Features i-矢量特征
I-矢量建模是一种技术,映射高维高斯混合模型的(GMM)超级体空间到低维空间。
音频帧xut表示语句u的第t帧,
在这里插入图片描述
使用来自Librisspeech的960小时语音数据来训练 DNN-HMM ASR,460清洁数据for i-矢量提取器。为了避免过拟合,i-向量的维数被设置为100.
3.2.2 Phoneme Level Features 因素水平特征
音素相关信息也被应用于情感识别系统中。语音依赖隐马尔可夫模型(HMM)被提出用于情感识别系统(Lee等人,2004)。(Bitouk等人,2010)提出提取三种类型音素的类级光谱特征。与大多数需要准确对齐的其他工作不同,使用语音的后验概率统计的话语水平。以下步骤用于提取音素级特征:
第一步:DNN ASR预训练,输入:话语u中的每一帧xut。输出:由p(si|xut,DNN)组成的数字向量,对应于三音子态si的后验概率。在ASP系统中,三音子状态数依赖于决策树算法。
第二步:将 the tri-phone state si映射为单音。disregarding left and right phone in the triphone structure。映射函数是:Fmap(si)=mj
第三步:计算语句水平上音位后验概率的统计。
在这里插入图片描述
它为句子u的每一帧生成一个向量,长度:为每帧的单音字的数目。为了获得一个固定的维数特征,平均值和标准差PM(X)
经过映射和特征提取,音素级特征维数为106
4 Network Architectures
共同利用跨模态和跨时间段的多模态融合,开发了 Multimodal Relational Tensor Network多模态关系张量网络。
4.1 Tensor Fusion Network
TFN包括一个张量融合层, from modality embeddings用3-fold 笛卡尔积。张量融合被定义为三倍笛卡尔积模式与一个额外的常数‘1’添加到维度。
4.2 Contextual LSTM
我们使用基于LSTM的RNN捕捉上下文信息.
4.3 Relational Tensor Network
有两种方法,我们可以应用张量融合来跨模态跨流。第一种方法是在所有模态的所有片段上,适用张量融合所有的模态特征。这种方法的主要问题是:参数,这将不是一个可行的方法,除非部署在一个大规模的基础设施。这种方法不需要使用上下文环境中使用的LSTM
另一种是在每个片段跨模态特征应用张量融合,然后使用一个LSTM网络模拟视频片段之间的序列互动信息。在图2中描述了网络。
论文笔记 Multimodal Relational Tensor Network for Sentiment and Emotion Classification_第2张图片
5 Experiments
数据集:CMU-MOSEI训练集,做了90/10的分割,验证和早期停止实验。所有结果报告的CMU-MOSEI验证集1。
5.1 Architecture comparisons架构比较
表1和表2显示了各种模型在情绪和情绪分类上的表现。我们看到,单模态文本网络优于音频和视频模式的情绪。单模态文本也优于SVM多模态的情绪分析,这是一个从三个模态的级联特征训练的SVM模型。早期的融合网络是一个LSTM基网络(单峰网络的扩展),它从三种模态中获得串联的特征。这种LSTM模型优于SVM多模态基线几乎5%,在情感分析二分类精度分数。所有这些LSTM基于网络优于SVM by a huge margin在7类分类得分和MAE的情绪分析。TFN网络具有丰富的文本特征集稍微优于简单的级联技术(早期融合模型)。具有最佳性能的模型是关系张量网络模型,它考虑了给定段的相邻的张量融合网络。
论文笔记 Multimodal Relational Tensor Network for Sentiment and Emotion Classification_第3张图片
论文笔记 Multimodal Relational Tensor Network for Sentiment and Emotion Classification_第4张图片

5.2 Ablation study
论文笔记 Multimodal Relational Tensor Network for Sentiment and Emotion Classification_第5张图片
表3显示了我们在我们的模型中使用的各种文本特征的详细消融研究。我们使用词库增加了基于单词的特征,和,基于ELMo嵌入的语言模型,和使用VADER分数的话语级别的情感分数。如表所示,添加词汇表导致分数的性能略有下降。与WordVectors的词汇空间相比,我们使用的词汇非常稀疏。此外,我们已经简单地串联的二进制得分的积极和消极类别的词相同的嵌入空间的词向量。大部分这些值在操作后仍为0。我们正在探索其他的方法来利用词库嵌入,让这些信号的分类过程中的更大的贡献。 Addition of the ELMo embeddings improves the performance as compared to using word embeddings alone. Addition of ELMo embeddings and segment level sentiment scores using Vader gives the best performance for binary, 7-class and MAE scores, as compared to adding individual features, or a combination of features .如ELMo工作中所述,在网络的不同位置添加层有助于抽取单词的各种自然发生的语法和语义信息。对于音频模态,我们提出了两个额外的功能集在上一节,i-矢量功能和音素水平的功能与COVAREP功能。

你可能感兴趣的:(人工智能)