阅读笔记 M3ER: Multiplicative multimodal emotion recognition using facial, textual, and speech cues

M3ER: Multiplicative multimodal emotion recognition using facial, textual, and speech cues

模型总体结构

阅读笔记 M3ER: Multiplicative multimodal emotion recognition using facial, textual, and speech cues_第1张图片

我们使用三种模态特征,即语音,文本和面部特征。 、

流程如下:

  • 提取特征以从原始输入is,if和if(紫色框)中获取fs,ft,ff

  • 检查特征向量是否有效。 我们使用指标函数Ie来处理特征向量(黄色框)。

  • 将这- 些向量传递到M3ER的分类和融合网络中,以预测情绪(橙色框)。

  • 在判断是否有效时,如果遇到有噪声的模态,我们将为该特定模态(蓝框)重新生成代理特征向量**(ps,pt或pf)**

下面会介绍模型的3个 重要结构

检查特征向量模块

作者引入了“模态检查”步骤,该步骤可以过滤无效数据。

作者认为:对于有效的数据,其相应的有效模态信号 至少与另一个模态信号相关。 我们直接利用这种相关性概念来区分可能对情感分类有效的特征(有效特征)和嘈杂的特征(无效特征)。作者使用典型相关分析(CCA)以计算相关分数

  • 通过射影变换 把不同模态的特征 映射到同一纬度(100) i j 属于 {face, text, speech}

阅读笔记 M3ER: Multiplicative multimodal emotion recognition using facial, textual, and speech cues_第2张图片

  • 计算相关性

在这里插入图片描述

  • 判断是否有效 Ie函数

在这里插入图片描述

生成代理特征向量模块

如果在模态检查步骤中的一个或多个模态被检测为无效的,我们将使用以下方程式为无效模态生成代理特征向量

在这里插入图片描述

其中T 表示一个线性变换

  • 找到 Vj 是的 Vj 和 Ff 距离最短

在这里插入图片描述

  • 解一个线性方程得到 ai

在这里插入图片描述

  • 用得到的 ai 计算Ps

在这里插入图片描述

乘法模态融合

作者收到(Liu et al. 2018) 的损失函数启发; 此方法用乘法的和 来 抑制弱模态,间接加强强模态, 其损失函数

在这里插入图片描述

Pj 表示 j模态下的预测值 , β 是超参

选定i为主模态, 其它模态的预测值会相乘 最后相加

作者修改了损失函数

在这里插入图片描述

有点像Cross Entropy Loss 的形式

在这里插入图片描述

分类网络结构

用的是memory fusion network (MFN)

Zadeh, A.; Liang, P. P.; Mazumder, N.; Poria, S.; Cambria, E.; and Morency, L.-P. 2018a. Memory fusion net- work for multi-view sequential learning. AAAI

  • 每个输入模态首先通过单隐藏LSTM,每个LSTM的输出维度为32。

  • LSTM的输出以及初始化为全零128维内存变量将其传递给 attention module (MFN 提出的)

  • attention module 内部的操作将重复固定的迭代次数t,该迭代次数由输入形式中的最大序列长度确定**(在本例中为t = 20)**。 注意模块每次迭代结束时的输出将用于更新memory变量以及LSTM的输入。

  • t迭代结束后,使用**乘法融合q前面提到的)**将3个LSTM的输出合并到32维特征向量。 该特征向量与memory变量的最终值连接在一起,然后将所得的160维特征向量通过64维全连接层,然后传递给6维全连接层,以生成网络输出

小节

  • 文章创新的使用 模态特征检测, 差的模态特征向量就不用
  • 得到一种生成代理特征的方法, 不过具体怎么生成还没搞太清楚
  • 乘法融合那一块没怎么看懂,感觉和一般损失函数差不多, 可能他这个是三个模态的特征分别算损失然后加在一起有关

你可能感兴趣的:(多模态,多模态,情感分析,三模态)