【论文阅读笔记】Tag-assisted multimodal sentiment analysis under uncertain missing modalities

Zeng J, Liu T, Zhou J. Tag-assisted multimodal sentiment analysis under uncertain missing modalities[C]//Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022: 1545-1554.【开放源码】

【论文概述】

本文提出了一种名为“标签辅助变换器编码器(TATE)网络”的新型多模态情感分析方法,旨在解决在不确定的多模态数据中部分模态缺失的问题。该方法通过引入一个标签编码模块来处理单个或多个模态的缺失情况,引导网络注意力集中于缺失的模态。此外,还采用了一种新的空间投影模式来对齐共同的向量,并使用变换器编码器-解码器网络来学习缺失模态的特征。实验表明,该模型在CMU-MOSI和IEMOCAP数据集上比几个基准模型表现更好,显示了该方法的有效性和优越性。

【模型结构】

主要工作流程如下:对于一个给定的视频片段,假设视觉模态和听觉模态缺失,首先将这些缺失的模态标记为0,然后提取剩余的原始特征。之后,被掩蔽的多模态表示通过两个分支进行处理:1)一个分支由预训练模型编码,该模型是用所有完整模态数据训练的;2)另一个分支通过标签编码模块和公共空间投影模块来获取对齐的特征向量。然后,更新的表示由Transformer编码器处理,并计算预训练向量和编码器输出之间的前向相似性损失。同时,编码输出被输入到分类器中进行情感预测。最后,计算反向重构损失和标签恢复损失以指导联合表示学习。

【论文阅读笔记】Tag-assisted multimodal sentiment analysis under uncertain missing modalities_第1张图片

  • Tag Encoding
【论文阅读笔记】Tag-assisted multimodal sentiment analysis under uncertain missing modalities_第2张图片

为了确定不确定的缺失模态,采用标签编码模块来标记,并将网络的注意力引导到这些缺失的模态上。采用4位数字(“0”或“1”)来标记缺失的模态。如果输入的部分模态丢失,将第一个数字设置为“0”,否则设置为“1”。此外,最后三位数字用于标记相应的视觉、听觉和文本模态。设置标签的好处是双重的:1)标签编码模块可以覆盖单个和多个模态缺失条件;以及2)编码的标签可以互补地辅助联合表示的学习。

  • Common Space Projection

    首先基于以下线性变换获得自相关公共空间:

    C v = [ W v a E v ∥ W v t E v ] , C a = [ W v a E a ∥ W t a E a ] , C t = [ W v t E t ∥ W t a E t ] , \begin{array}{l} C_{v}=\left[W_{v a} E_{v} \| W_{v t} E_{v}\right], \\ C_{a}=\left[W_{v a} E_{a} \| W_{t a} E_{a}\right], \\ C_{t}=\left[W_{v t} E_{t} \| W_{t a} E_{t}\right], \end{array} Cv=[WvaEvWvtEv],Ca=[WvaEaWtaEa],Ct=[WvtEtWtaEt],

    其中 W v a W_{v a} Wva W v t W_{v t} Wvt W t a W_{t a} Wta均为权重矩阵, ∣ ∣ || ∣∣表示垂直连接操作。然后,将所有公共向量和编码标签连接起来,最终获得公共联合表示: E all  E_{\text {all }} Eall 

    E all  = [ C v ∥ C a ∥ C t ∥ E tag  ] E_{\text {all }}=\left[C_{v}\left\|C_{a}\right\| C_{t} \| E_{\text {tag }}\right] Eall =[CvCaCtEtag ]

    【论文阅读笔记】Tag-assisted multimodal sentiment analysis under uncertain missing modalities_第3张图片

特征融合大多用MLP映射或者直接transformer交叉自注意力,这里这种方式有点耳目一新,感觉应该很轻量级。

  • Transformer Encoder-Decoder

    这部分没有什么好说的

  • Training Objective

    L total  = L cls  + λ 1 L forward  + λ 2 L backward  + λ 3 L tag  \mathcal{L}_{\text {total }}=\mathcal{L}_{\text {cls }}+\lambda_{1} \mathcal{L}_{\text {forward }}+\lambda_{2} \mathcal{L}_{\text {backward }}+\lambda_{3} \mathcal{L}_{\text {tag }} Ltotal =Lcls +λ1Lforward +λ2Lbackward +λ3Ltag 

其中, L cls  \mathcal{L}_{\text {cls }} Lcls 是分类损失, L forward  \mathcal{L}_{\text {forward }} Lforward 是前向差分损失, L backward  \mathcal{L}_{\text {backward }} Lbackward 是, L tag  \mathcal{L}_{\text {tag }} Ltag 是标签恢复损失。

​ 1.前向损失:由预训练输出和Transformer编码器输出之间的差计算。论文中使用JS散度。
​ 2.后向重构损失:用于监督联合公共向量重建。因此,类似于前向差分损失,计算Transformer解码器输出(JS散度)和更新的公共联合表示之间的JS发散损失。

​ 3.分类损失:交叉熵

​ 4.标签重建损失:论文中标签是用来标记缺失的模态,希望网络能够更多地关注它们。为了更好地指导附着标签的重建,论文采用一个标签恢复的过程来指导。使用平均绝对误差(MAE)损失的原因是MAE对绝对函数的离群值不太敏感。因此,采用MAE来计算 E t a g E_{t a g} Etag D o u t D_{o u t} Dout最后四位之间的损失。

【小结】

本文是关于多模态情感分析方面的,与研究方向不同,不再赘述。本文值得借鉴的方式就是标签融入的方式,以及损失函数的构建,可以用于缺失模态医学影像。至于Common Space Projection方式,融合多模态特征是否比Transformer更好,需要实验验证,但可以肯定的是,计算代价低得多。

你可能感兴趣的:(多模态与缺失模态,深度学习,论文阅读,笔记)