Gated Mechanism for Attention Based Multi Modal Sentiment Analysis 阅读笔记

GATED MECHANISM FOR ATTENTION BASED MULTIMODAL SENTIMENT ANALYSIS 阅读笔记

最近在跟进多模态的情感分析发现多模态榜一又被刷下来了,这篇论文是当前时间内的最好的效果,下面就对论文的模型结构以及实验细节,和我自己的心得来做一个笔记。读完这篇文章不得不说这篇论文在篇幅只有5页的情况下,把问题说得非常清楚,他的写作方法也值得我们学习!!!

推荐一个好地址: paperwithcode 的 sota 榜, 很方便找代码的。

https://paperswithcode.com/sota/multimodal-sentiment-analysis-on-mosi

1. 摘要

在本文中,将探讨多模态情感分析的三个方面。

  • 1.跨模态交互学习,即多种模态如何影响情感;
  • 2.学习多模态交互中的长期依赖关系
  • 3.单模态和跨模态线索的融合。

在这三者中,我们发现学习多个模态之间相互作用对这个问题是能提升效果的。 我们在两个基准数据集上进行了实验,(CMU-MOSI)和(CMU-MOSEI)语料库。 我们在这两项任务上的方法分别产生83.9%和81.1%的准确度,与当前的最新技术相比,绝对提高了1.6%和1.34%。

2. 模型方法

2.1 模型结构

Gated Mechanism for Attention Based Multi Modal Sentiment Analysis 阅读笔记_第1张图片

模型一共包括以下5个方面:

2.2 Contextual Utterance Representation

对于每一个模态,它都是一个时序化的序列,也就是说对于一个文本模态,一句话是由多个词向量组成的,那么它就构成了一个时序序列,我们在这个阶段得到一个,基于上下文的表示,

在这里插入图片描述

2.3 Self Attention

因为像视频来说,一个视频大概会分成长度100的序列,所以我们需要捕捉更远的上下文关系,所以我们使用进一步使用 self-attention(不是 bilinear attention)bilinear attention可看https://blog.csdn.net/z704630835/article/details/100532262

Gated Mechanism for Attention Based Multi Modal Sentiment Analysis 阅读笔记_第2张图片
这里用于计算相似度的是 general方式

Gated Mechanism for Attention Based Multi Modal Sentiment Analysis 阅读笔记_第3张图片
论文参考为
Effective Approaches to Attention-based Neural Machine Translation

一般的self-attention 是用的dot形式
Gated Mechanism for Attention Based Multi Modal Sentiment Analysis 阅读笔记_第4张图片

2.4 Cross Attention Multimodal

作者想使得两个模态序列之间进行交互,获取他们之间的交互信息,于是使用 cross-modal attention(非常常见的 QKV 不同模态即可实现)

我们计算 T(text) 对 V(video)模态的注意力

在这里插入图片描述

然后乘以 V 模态 就得到 T对V 的交互信息 (下图的Ctv

Gated Mechanism for Attention Based Multi Modal Sentiment Analysis 阅读笔记_第5张图片

2.5 Gating Mechanism for Cross Interaction

提出门机制来,对生成的交互信息的噪声进行过滤。

Fvt表示 T模态经过 V过滤后的特征, 它是由 融合模态交互信息模态上下文表示 融合而来
Gated Mechanism for Attention Based Multi Modal Sentiment Analysis 阅读笔记_第6张图片

我们定一个核函数用于融合模态交互信息P(Cross Attention Multimodal 生成的)以及模态上下文表示Q

其中X(P, Q)表示一个非线性操作 定义在下面, 这里P就代表上面的Cvt或者 Ctv , Q 就代表 Ht或Hv
Gated Mechanism for Attention Based Multi Modal Sentiment Analysis 阅读笔记_第7张图片
G(P,Q)代表门控

2.6 Deep Multimodal Fusion

为了聚合来前面模块所得到的特征,我们使用Bi-GRU层来学习每个模态的深度多模态特征向量

例如对于T模态

St表示 单模态T的上下文表示, 、Fvt表示 V和T模态的交互信息, Fat 表示 A和T模态的交互信息, 这也是一个时序序列 放入GRU来进行融合

在这里插入图片描述

最后将三个模态的特征进行拼接 接solfmax 分类

实验细节

  • 文本Glove 词向量
  • 3D CNN 视觉特征初步提取
  • openSMILE 听觉特征初步提取

你可能感兴趣的:(多模态,多模态,情感分析,CMU-MOSI,深度学习,NLP)