论文题目:
Tensor Fusion Network for Multimodal Sentiment Analysis
来源:
EMNLP_2017
论文链接:
https://arxiv.org/pdf/1707.07250.pdf
论文代码
https://github.com/Justin1904/TensorFusionNetworks
为了解决模态内的动态不稳定,作者提出了一种新的模型Tensor Fusion Network(张量融合网络,TFN),TFN能够端到端地学习模态内和模态间的动态,采用一种新的多模态融合方法(张量融合)对模态间动态进行建模,模态内动态则通过三个模态嵌入子网络进行建模。
Modality Embedding Subnetworks:单模态特征为输入,输出丰富的模态嵌入。
Tensor Fusion Layer:使用模态嵌入的3-fold笛卡尔积显式地模拟单模态、双模态和三模态相互作用。
Sentiment Inference Subnetwork是以张量融合层的输出为条件进行情感推理的网络。
1. Spoken Language Embedding Subnetwork:
在上图提取语言模态特征时,首先通过GloVe将每个单词转化为300维的向量,然后通过LSTM来恢复之前被稀释或丢失的可用信息并输出hi,将h1、h2、h3……hTi串联而成的语言矩阵表示为hl。然后将h_{l}用作全连接网络的输入,该网络生成语言嵌入Zl,格式如下:
其中Wl为 Ul网络中所有权重的集合,包括Wld, Wle,Wlf c , and blfc.
2.Visual Embedding Subnetwork:
对每一帧(以30Hz采样)检测说话人的面部,并使用FACET面部表情分析框架提取七种基本情绪(愤怒、轻蔑、厌恶、恐惧、喜悦、悲伤和惊讶)和两种高级情绪(沮丧和困惑)的指标,还使用FACET提取一组20个面部动作单元,表示面部详细的肌肉运动。使用OpenFace提取头部位置、头部旋转和68个面部标志位置的估计值。
提取视频的第j帧的p个视觉特征,对帧执行平均池化,以获得预期的视觉特征。最后,作者使用具有 32 个 ReLU 单元和权重 Wv 的三个隐藏层的深度神经网络,得到输出
3.Acoustic Embedding Subnetwork
对于每个意见话语音频,使用 COVAREP 声学分析框架 提取一组声学特征。
对于每个具有 Ta 音频帧的意见片段(以 100Hz 采样;即 10ms),我们提取第j帧的一组 q 个声学特征 ,。通过平均池化获得预期的声学特征。a 作为音频嵌入子网络 Ua 的输入,与 Uv 类似,Ua 是具有 3 层 32 个 ReLU 单元的网络,权重为 Wa,输出:
Tensor Fusion层使用三倍笛卡尔积定义为以下向量场:
值为1额外增加常量维度,如下图所示,这样既保留了原模态的信息,同时计算了两种模态间的相关性。
下图中有七个语义不同的子区域。前三个子区域zl、zv和za是在张量融合中形成单模态相互作用的模态嵌入子网络的单模态嵌入。三个次区域zl⊗zv,zl⊗za和zv⊗za捕捉张量融合中的双模态相互作用。最后,zl⊗zv⊗za捕捉了三模态相互作用。
在张量融合层之后,每个意见话语都可以表示为一个多模态张量 Zm。使用情感推理子网络 Us ,它是一个全连接的深度神经网络,其权重 Ws 以 zm 为条件。该网络的架构由两层128 个 ReLU 激活单元组成。情感推理子网络的似然函数定义如下,其中 φ 是情感预测:
在实验中,作者使用了Us网络的三种变化:
1.网络是为二元情感分类而训练的,有一个使用二元交叉熵损失的单一sigmoid输出神经元。
2.网络是为五类情感分类而设计的,使用分类交叉熵损失的softmax概率函数。
3.使用一个单一的sigmoid输出,并用均方误差损失进行情感回归。
在论文中,作者设计了三套实验,每套实验都针对不同的研究问题,同时作者使用的是CMU-MOSI数据集。
实验1:将TFN与之前多模态情感分析的最先进方法进行比较。
实验2:研究TFN子张量的重要性和每个单独模态的影响并与常用的早期融合方法进行比较。
实验3:比较三个特定模态网络(语言、视觉和声音)的性能与最先进的单模态方法进行。
实验一:多模态情感分析
TFN 优于先前提出的神经和非神经方法。这种差异在 5 类分类的情况下特别明显。
实验二:张量融合评估
消融研究结果表明双峰子张量较单峰子张量会提供更多信息。同时,比较完整 TFN 模型和它的一个变体TFNnotrimodal(去除了三峰子张量,但所有单峰和双峰子张量都存在),观察到完整的 TFN 模型有了很大的改进,证实了三峰子张量的重要性以及对完整张量的需求。
作者和与早期融合方法 (TFNearly) 进行了,TFNearly简单地连接了三个模态的嵌入 < Zl, Za, Zv > ,将其作为输入直接传递给 Us 。
实验三:模态嵌入子网评估
在这个实验中,作者将模态嵌入网络的性能与基于语言、基于视觉和基于声学的情感分析的最先进方法进行比较。
1.Language Sentiment Analysis
作者在 CMU-MOSI 数据集上重新训练它们(原始预训练模型的性能显示在下表的括号中),并将它们与仅语言地 TFNlanguage 进行比较。
2.Visual Sentiment Analysis
使用TFNvisual模型的性能与视觉情感分析和情感识别中的知名方法(重新训练后进行的情感分析)进行了比较:
3.Acoustic Sentiment Analysis
使用TFNacoustic模型的性能与以下音频情感分析中的知名方法(重新训练后进行的情感分析)进行比较:
我们提出了一种新的端到端融合方法,用于情感分析。它显式地表示行为之间的单峰、双峰和三峰交互。我们在公开可用的CMU-MOSI数据集上进行的实验,与两种多模态方法相比,产生了最先进的性能。此外,我们的方法在CMU-MOSI上为纯语言、纯视觉和纯听觉的多通道情感分析带来了最先进的结果。