读《MULTI-TENSOR FUSION NETWORK WITH HYBRID ATTENTION FOR MULTIMODAL SENTIMENT ANALYSIS》

2020

引言

一些研究人员使用简单的基于连接的方法[11,12,13,14]来融合多模态特征,这可能会导致模态动态相关信息的丢失。因为基于连接的方法不关心多模态特征上的高维空间相关性。因此,提出了张量融合网络[3]以张量的形式捕获多模态特征相关,可以很好地存储模态动态信息。然而,简单张量融合网络的特征提取不足,模态交互能力较差。
为了解决特征提取不足的问题,我们在图1中提出了一个具有混合注意的多张量融合网络(MTFN-HA)。该方法将视频中说话者的每句话作为一个情感片段,在对结构特征和词对齐进行编码后,将部分片段输入到具有混合注意的多张量融合网络中。采用Bi-LSTM和混合注意两种方法提取多模态特征。引入了一种分层的多张量融合方法来融合文本、视频和音频模式之间的双峰交互信息。融合六对双峰相互作用信息,得到两个交叉模态张量。最后,得到了情绪强度的回归值。
读《MULTI-TENSOR FUSION NETWORK WITH HYBRID ATTENTION FOR MULTIMODAL SENTIMENT ANALYSIS》_第1张图片

相关工作

多模态情感分析中的多模态融合方法可以分为基于连接的方法和基于非连接的分配方法。通过基于连接的方法,将多模态特征端到端拼接,得到融合结果。MARN[12]使用长-短期混合记忆和多头注意机制进行情绪分类。多模态多头注意[13]也被应用于情绪分类。将上下文感知交互式注意[11]应用于情绪强度预测实验。Kumar等人[14]引入了门注意机制,在情绪任务的二元分类中达到更高的准确性。然而,这些方法都使用了连接的特性,这可能会导致动态相关信息的丢失。(就是对齐式的融合呗)
张量融合是一种典型的非串联特征融合方法。Zadeh等人[3]提出了一种灵活结合多模态动力学信息的张量融合网络。张量融合可以从不同的源特征快速建立空间关系模型。此外,关系张量网络[15]是张量融合的推广,对所有不同的模态使用多个Bi-LSTM和一个来自模态嵌入的n倍笛卡尔积。但是这些方法在特征提取和模态交互方面准备得不够充分。特征提取的不足可能会导致关键情绪特征的丧失,而模式交互作用的不足可能会降低融合的有效性。因此,我们提出了一种有效的多模态融合方法来解决不足的特征提取和不充分的模态交互问题

方法

单模态上下文(就相当于intra-modal吧)

bilstm

混合注意力

充分提取模块内上下文信息和多模态交互特征。混合注意由多头注意机制和交叉注意机制组成,如图2所示。使用多重线性变换的多头注意力[17]是从不同的子空间学习模块内特征。
读《MULTI-TENSOR FUSION NETWORK WITH HYBRID ATTENTION FOR MULTIMODAL SENTIMENT ANALYSIS》_第2张图片
读《MULTI-TENSOR FUSION NETWORK WITH HYBRID ATTENTION FOR MULTIMODAL SENTIMENT ANALYSIS》_第3张图片(其实三模态在bilstm后都又经过自注意力,然后再交互注意力了。这里交互注意力是拿自注意力的结果和另一个模态的lstm结果做的)
读《MULTI-TENSOR FUSION NETWORK WITH HYBRID ATTENTION FOR MULTIMODAL SENTIMENT ANALYSIS》_第4张图片
因此,通过跨模态注意计算,我们可以得到6个不同模式之间的交叉注意值:CVa、CAV、CTV、CVT、CTA、CAT。我们把它们放入多张量融合层。(A32,很直观的排列组合)

多张量融合

多张量融合由多个张量融合层组成,它使用了来自模态嵌入的笛卡尔积。一种张量融合方法的定义如下:(笛卡尔积不就是逻辑上的成对吗,这有啥实际的计算?好吧其实是外积)
在这里插入图片描述
我们将6个交叉注意值随机分为两组,并分别进行张量融合(那这个随机分组就得有将就吧)。最后,所得到的两个张量可以看作是新的视图模,并再次融合。这些公式表示如下。
读《MULTI-TENSOR FUSION NETWORK WITH HYBRID ATTENTION FOR MULTIMODAL SENTIMENT ANALYSIS》_第5张图片
在多张量融合后,使用全连接的深度神经网络FC,权值Ws以z为条件。该网络包括两层连接到预测层的ReLU激活单元。FC网络的函数被定义为方程(14),其中情绪强度预测结果为I。

你可能感兴趣的:(多模态融合,深度学习)