研读Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal

Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal

联合多模态方面情感分析与辅助跨模态关系检测

Abstract

背景

​方面术语抽取(ATE)和方面情感分类(ASC)是方面级情感分析(ALSA)中两个基础的细粒度子任务。在文本分析中,联合提取方面术语和情感极性比单独的子任务具有更好的实用性,因此受到了广泛关注。然而,在多模态场景下,现有研究局限于独立处理每个子任务,未能建模上述两个目标之间的固有联系,并忽略了更好的应用。

提出

​因此,文中首次联合执行了多模态ATE (MATE)和ASC (MASC),并提出了一种辅助跨模态关系检测的多模态联合学习方法用于多模态方面级情感分析(MALSA)。

对于此任务,作者认为至少存在两个方面的挑战。

一方面,视觉模态不一定对文本模态下的信息有拓展作用。因此,一个表现良好的方法应该确定视觉信息是否添加到文本模态中(跨模态关系检测)以及视觉信息对文本的贡献有多大。

另一方面,两个多模态子任务的特点不同:一个是序列标注问题,另一个是方面依赖分类问题。不同的任务似乎关注不同的图像信息(前者只用观察粗粒度的信息就可判断是文本中的具体的人,而后者需要观察更加细致的表情)。因此,一个良好的方法应该分别挖掘这两个子任务的视觉信息,而不是使用相同的视觉输入进行折叠标记。

方法

  • 首先构建一个辅助的文本-图像关系检测模块,以控制视觉信息的合理利用
  • 其次,利用联合分层框架来架起MATE和MASC之间的多模式连接,并为每个子模块分别视觉指导;
  • 最后,根据联合提取的特定方面情感极性,得到所有方面级情感极性

广泛的实验表明,该方法对联合文本方法、管道和折叠的多模式方法的有效性。

1 Introduction

​多模态方面级(又称目标导向)情感分析(MALSA)是多模态情感分析(MSA)中一项重要的细化任务。以前的研究通常将社交媒体中的MALSA作为两个独立的子任务:多模态方面术语提取(MATE)和多模态方面情感分类(MASC)。首先,MATE旨在从自由文本及其附带的图像中检测一组所有潜在的方面术语。第二,MASC的目的是对多模式帖子在文本模式中对特定方面的情感极性进行分类。

​为了更好地满足实际应用,最近在文本场景中,同时解决ATE和ASC的方面术语极性共同提取受到广泛关注。然而,据我们所知,在多模态场景中,联合MATE和MASC,即联合多模态方面级情感分析(JMASA),迄今为止还没有被研究过。对于这种联合多模态任务,我们认为至少存在以下挑战

  1. 一方面,视觉模式可能对其中一个子任务没有提供线索。例如,在图1(a)中,由于图像显示了文本中描述的大部分内容,而我们无法从图像中第一时间推断出哪个团队具有优势。而直接理解文本(如 "溃败 "一词)似乎可以判断 "Spurs "和 “Thunder”的情绪。因此,这张图片并没有增加文本推文的含义。相反,在图1(b)中,文本模式的信息相当有限,所以我们不能直接推断出对某一方面的情绪。而视觉模态则提供了丰富的线索(例如,不同的表情),帮助我们预测 "奥巴马 "的正确情绪。因此,一个良好的方法应该确定视觉信息是否增加了文本模态(跨模态关系检测)以及视觉信息对文本的贡献有多大。
  2. 另一方面,两个多模态子任务的特点是不同的:一个是序列标签问题,另一个是依赖方面的分类问题。不同的任务似乎关注不同的图像信息。例如,在图1(b)中,对于第一个子任务MATE,如果我们能够注意到图像中的一些粗粒度的概念(例如,人脸的轮廓,人的标签),就足以有效地帮助识别文本中的名字 "OBAMA奥巴马 ",作为一个方面。对于第二个子任务MASC,我们应该关注一些区域的细节(例如,不同的面部表情),这样我们就可以判断出准确的情感取决于一个特定的方面 “OBAMA”。因此,一个良好的方法应该为这两个子任务分别挖掘视觉信息,而不是用相同的视觉喂养进行折叠标签。

为了应对上述挑战,我们提出了一种带有辅助性跨模态关系检测的多模态联合学习方法,即JML。具体来说,

  • 我们首先设计了一个辅助性的跨模态关系检测模块,以控制图像是否对文本的意义有所补充。
  • 其次,我们利用联合分层框架来分别关注每个子任务的有效视觉信息,而不是折叠的标签框架。
  • 最后,我们可以获得所有潜在的方面术语极性对

在Twitter的两个多模态数据集上进行的大量实验和分析表明,我们的方法比基于文本的联合方法和折叠式多模态联合方法表现得更好。

2 Related Work

​在过去的五年中,基于文本的方面级情感分析引起了广泛关注。而多模态面向目标的情感分析由于最近迫切需要应用于行业,因此变得越来越重要。在下文中,我们主要概述了对文本和图像模态的多模态方面术语提取和多模态方面情感分类的有限研究。此外,我们还介绍了一些基于文本的联合方面术语提取和情感极性分类的代表性研究。

多模态方面级术语提取(MATE)。这个子任务通常采用序列标记的方法。但是,要在文本和图像之间架起桥梁是很有挑战性的。一些专注于命名实体识别的相关研究提出通过ResNet编码利用整个图像信息来增强每个单词的表示,例如,在RNN上,在Transformer上和在GNN上。此外,一些相关的研究提出通过物体检测来利用细粒度的视觉信息。

​但是,所有上述研究完全忽略了依赖于检测目标的情感极性分析,这在实际应用中具有很大的便利性,例如电子商务。**与之不同的是,我们建议在多模态的情况下,除了提取方面的术语外,还要联合进行相应的情感分类。**请注意,我们提出了一种多模态的联合学习方法,以提高MATE和MASC的性能。

多模态方面级情感分类(MASC)。与基于文本的方面情感分类不同,有效融合文本和视觉信息是一个挑战。作为先驱,Xu等人(2019)从数字产品评论平台上收集了一个基准的中国数据集,用于多模式方面级情感分析,并提出了一个多交互式记忆网络来迭代融合文本和视觉表示。

​最近,Yu和Jiang(2019)在Twitter中注释了两个数据集,以实现多模式面向目标(又名方面级)的情感分类,并利用BERT作为骨干,有效地结合了文本和视觉模式。在同一时期。Yu等人(2020a)提出了一个目标敏感的注意力和融合网络,以解决基于文本和多模式的目标导向情感分类。

​然而,上述所有的研究都假设已经给出了方面或目标,这只限于某些应用。与之不同的是,我们建议在多模态的情况下,除了相应的情感分类外,还要联合进行方面术语的提取。请注意,我们还提出了一种多模态联合学习方法,以提高MATE和MASC的性能。

基于文本的联合方面术语提取和情感分类。一些研究试图以更综合的方式解决这两个子任务,即联合提取方面术语并预测其情感极性。最近和最有代表性的是基于跨度的提取-分类方法,和带有句法信息的定向GCN。

然而,上述所有的研究都不能对这两个子任务的视觉引导进行建模。与之不同的是,我们提出了一个多模态的联合框架来处理MATE和MASC。

3 Joint Multi-modal Aspect-Sentiment Analysis 联合多模式方面情感分析

​在本节中,我们将介绍我们的多模态联合方面术语提取和方面情感分类的方法。在下文中,我们首先将这一联合任务形式化,然后介绍文本-图像关系检测模块,最后给出我们多模态学习的分层框架的细节。

Task Definition 任务定义

我们定义了以下符号,在本文中使用。让D= {(Xn, In, An, Sn)}Nn=1是数据样本的集合。给定一个长度为k的单词序列X={x1, x2, - -, xk}和一个图像I,联合任务是同时提取一个方面术语列表A={a1, a2, - -, am}方面情感列表S={s1, s2, - -, sm}进行分类,其中m表示方面的数量。需要注意的是,由于BERT具有出色的文本表示能力,因此单词嵌入是通过预处理得到的,同时由于ResNet具有出色的视觉表示能力,因此图像区域嵌入是通过预处理得到的

研读Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal_第1张图片

3.1 Cross-modal Relation Detection 跨模式关系检测

​传统的方法完全考虑视觉信息,而忽略了图像是否能给文本带来好处,与此不同,我们将图像-文本关系纳入模型,只保留对文本的辅助性视觉信息。因此,我们通过预训练建立了一个关系模块,为我们的多模态联合任务正确利用视觉模态。图2的右下角显示了跨模态关系检测模块。

​我们使用TRC数据集(Vempala和Preotiucpietro,2019)进行文本-图像关系检测,来控制图像是否添加了文本含义。在TRC数据集上去利用这个文本-图像关系检测去控制视觉信息是否可以被采用到文本理解的结果在表1显示,表1显示了文本-图像关系的类型和TRC数据集的静态情况。只有小于一半的视觉信息被采用。

研读Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal_第2张图片

Module Design 模块设计。我们首先将两个原始模态分别纳入BERT和ResNet的预训练模块,注意到预训练模块是独立参与跨模态关系检测模块的。然后,我们将两个模态表示纳入一个自注意力模块,以捕捉每个模态的模内互动。之后,我们将输出状态放入交叉注意力模块,以捕捉文本和图像的模态间互动。从形式上看,
研读Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal_第3张图片
其中ATTself表示多头自注意力操作,ATTcross表示跨模态多头注意力 。Orel和Trel是图像I和文本X的预先训练好的嵌入

最后,我们通过前馈神经网络和softmax激活函数获得关系概率,具体如下:
研读Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal_第4张图片

其中 W 1 ∈ R 4 ∗ d m × d m W_1∈R^{4∗dm×dm} W1R4dm×dm和W2∈Rdm×2是两个可训练参数矩阵。H指的是Ho、Hx、Ho→x和Hx→o的串联。由于关系得分也可以是二进制的:0或1,我们用类似于方程5的方式计算,但得分pr < 0.5 = 0,p < 0.5。然后我们尝试用软关系和硬关系来指导我们的多模态联合任务。

Relation Loss 关系损失。设Dr={r}N n=1 ={< text(i), image(i) >}N i=1是一组用于TRC训练的文本-图像对二元关系分类的损失Lr由交叉熵计算。其中pr(x)是正确分类的概率,该概率由softmax计算。
在这里插入图片描述

3.2 Multi-modal Aspect Terms Extraction 多模式方面术语提取

图2的左侧部分显示了多模式方面术语提取的体系结构。我们首先利用文本-图像关系来控制视觉输入,然后使文本和视觉信息进行相互关注
研读Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal_第5张图片

​其中RelDet(,)表示具有输入X和I的关系检测模模型O是I的另一个ResNet的输出,应用于我们的主要任务。Gr是关系得分。在这个阶段,我们使用掩码门Gr来控制加法视觉线索。

随后,我们让文本关注第一个子任务MATE的有效视觉信息。定义如下:
在这里插入图片描述

​其中⊕表示对应位置的元素相加 W a ∈ R d m ∗ d m W_a∈R^{dm∗dm} WaRdmdmT是X经过另一个BERT的输出,应用于我们的主要任务。

​由于巨大的搜索空间和多词情感的不一致性,我们没有通过BIO(生物)序列标签的方法来寻找方面,而是通过其在句子中的开始和结束位置来识别候选方面,这受到了之前研究的启发。从上述步骤中,我们得到了非标准化的分数以及起始位置的概率分布为:

文章采用的是预测每个方面词开始的位置和结束的位置(对每个词进行两个打分判断)。

在这里插入图片描述

​其中** W s ∈ R d m W_s∈R^{dm} WsRdm是一个可训练的权重向量**。相应地,我们可以通过以下方式获得终点位置的概率以及它的置信度分数:
在这里插入图片描述

​在训练过程中,考虑到每个句子可能包含多个方面,我们为A中的所有方面实体标注跨度边界。之后,我们得到一个向量 y s ∈ R k y^s∈R^k ysRk,其中每个元素 y i s y^s_i yis表示第i个位置是否是一个方面的开始,同时我们还得到另一个向量 y e y^e ye用于标注结束位置

3.3 Multi-modal Aspect Sentiment Classification 多模式方面情感分类

​传统上,具有方面的方面情感分类着重于使用序列标记方法或复杂的神经网络,分别对目标和句子进行编码。相反,我们建议根据位置向量( y s y^s ys y e y^e ye上层的跨模式状态 H a H_a Ha获得总结性的表示。然后,用一个前馈神经网络来预测情感的极性,如图2所示(右上角)。

​受上层网络的启发,我们从 y s y^s ys y e y^e ye那里接收一个多方面跨度列表。特别是,给定一个方面跨度a,我们用注意机制将隐藏状态表示Ha在**其相应的边界( s i s_i si e i e_i ei)**中总结为一个向量 H u i H^i_u Hui。从形式上看:
研读Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal_第6张图片

​其中** W m ∈ R d m W_m∈R^{dm} WmRdm是一个可训练的权重向量**。

​此外,在关系门Gr的帮助下,我们将公式(8)中的**视觉表示 O r O_r Or整合到跨度向量集 H u H_u Hu**中。与公式(9-10)类似,跨模态多头注意机制被用于模态融合。
在这里插入图片描述

​其中 W u ∈ R d m × d m W_u∈R^{dm×dm} WuRdm×dm,然后我们得到** H s ∈ R m × d m H_s∈R^{m×dm} HsRm×dm作为最终情感状态集**。

​此外,我们通过应用两个线性转换并在两者之间激活tanh,并通过softmax函数进行归一化,输出极性概率为:
在这里插入图片描述

其中 W p ∈ R d m × ε W_p∈R^{dm×ε} WpRdm×ε W v ∈ R d m × d m W_v∈R^{dm×dm} WvRdm×dm是两个可训练的权重参数矩阵。 ε表示分类数目

3.4 Joint Loss 联合损失

​由于它是一个方面术语提取和方面情感分类的联合任务,我们同时计算两组不同的损失,具体如下。
研读Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal_第7张图片

其中, y s y_s ys y e y_e ye y p y_p yp是分别表示黄金开头、结尾位置、真实情感极性的单热标签a、m分别是句子标记的数量和方面的数量

​在推理时,我们根据以前的研究,选择最合适的span(k,l)(k g s t r g^{str} gstr g e n d g^{end} gend)作为最终的方面预测。之后,为每个候选跨度计算情感极性概率,并选择 p p p^p pp中最大值的情感类。

4 Experimentation

在本节中,我们系统地评估了我们的方面术语提取和方面情感分类的方法。

4.1 Experimental Settings

Datasets. 数据集。在实验中,我们使用三个数据集来评估性能。一个是TRC数据集,另外两个是MALSA的公共Twitter数据集(即Twitter2015和Twitter2017)。详细说明如下:

  1. Bloomberg LP的TRC数据集(Vempala和Preotiuc-Pietro,2019年)在此推文数据集中,我们选择了作者注释的两种类型的文本图像关系,如表1所示。图像对推文的语义的有用性,特别适合我们的任务。我们遵循训练//测试集的8:2的划分,与(Vempala和Preotiuc-Pietro,2019年)相同。
  2. Twitter数据集。如表2所示,数据集(即Twitter2015和Twitter2017)是由(Zhang et al., 2018)提供的,最初用于多模式命名实体识别,并由(Lu et al., 2018)对每个方面的情感极性进行了注释。我们将此数据集用于我们的联合任务。

实施细节。我们通过Pytorch工具包(torch-1.1.0)和一块GTX 1080 Ti实现我们的方法。我们模型中的隐藏大小 d m d_m dm是768,与BERT中的dim相同。ATTself和ATTcross中的头数为8。

​在训练过程中,我们对每个模型进行固定数量的历时50分钟的训练,并监测其在验证集上的表现。训练结束后,我们选择在验证集上具有最佳F1得分的模型作为我们的最终模型,并评估其在测试集上的表现。我们采用交叉熵作为损失函数,并使用Adam(Kingma和Ba,2015)的优化方法来最小化训练数据的损失。为了激励未来的研究,代码将通过github发布。

评估指标和显著性测试。在我们的研究中,我们采用了三个评价指标来衡量不同方法在多模态方面术语提取和方面情感分类中的表现,即微观F1指标(F1)精确度(P)召回率(R)。此外,通过scipy,进行成对的t-test来检验两种方法之间差异的显著性,默认的显著水平为0.05。这些指标已经在一些方面的提取和情感分类问题中得到了广泛的应用。

4.2 Baselines 基线

​为了进行全面的比较,我们主要将四组基线系统与我们的方法进行比较

第一组是最相关的多模态方面术语提取方法

  • 1)RAN;一种在多模态情况下提取方面术语的共同注意力的方法。
  • 2)UMT;统一多模态Transformer。
  • 3)OSCGA,一种基于BIO标签的对象特征的多模态场景下的命名实体识别(NER)方法。

请注意,UMT和OSCGA专注于在多模态场景中使用BIO标签的命名实体识别(NER),分别利用transformer和对象级细粒度视觉特征的表示能力。

第二组是多模式方面依赖情感分类的代表性方法

  • 1)TomBERT。一种基于Bert改进的多模态的情感识别方法
  • 2)ESAFN

请注意,TomBERT是基于BERT的,ESAFN是基于LSTM的,但明确为文本语境建模。

第三组是基于文本的联合方面术语提取和方面情感分类的方法

  • 1)SPAN
  • 2)DGCN

请注意,SPAN也采用了分层框架,但只限于文本场景。D-GCN利用了GCN的句法信息。

第四组主要是两个子任务的多模式方法

由于JMASA不存在多模态方法,我们在MATE和MASC的两个代表性研究上实现了两个管道方法,以及三个折叠标签方法。

  • 1)UMT+TomBERT
  • 2)OSCGA+TomBERT
  • 3)UMT-collapsed
  • 4)OSCGA-collapsed
  • 5)RpBERT

请注意,RpBERT是一个用于NER和文本-图像关系的多模式多任务方法。虽然它也利用了跨模态关系,但它依赖于折叠式标签,不能为不同的多模态子任务关注不同的特征。

4.3 Experimental Results

TRC的结果表4显示了我们的关系检测模块在TRC数据的测试集上的表现结果显示,我们的配备了BERT和ResNet的基于注意力的视觉语言模型,超过了(Lu等人,2018)和RpBERT的表现。与(Lu et al., 2018)相比,我们的模型在TRC数据测试集上的F1得分增加了8.8%,与RpBERT相比,F1得分明显增加了1.7%,这证明了该任务的有效性

对于JMASA表3显示了多模态场景下不同方法的结果,这些方法同时处理了方面术语提取和方面情感分类。从这个表中,我们可以观察到:

  • 1)基于文本的联合方法比多模态联合任务方法的表现要差很多,这表明视觉模态丰富了表征,有助于正确预测,而不是有限的文本模态。
  • 2)UMT-collapse、RpBERT和OSCGA-collapse的表现比我们的联合方法差很多,原因是用相同的视觉喂养进行了折叠式标记,而不是分别为两个子任务挖掘视觉信息。
  • 3)RpBERT在所有基线中表现最差,它同时处理文本-图像关系分类和视觉语言学习的方面术语提取和方面情感分类的多个任务,这表明基于普通Bert的模型不能在同一时间处理多个任务,大大降低了任务性能
  • 4)具有硬关系的JML(hard)比它的软关系表现得差,表明使用软图像-文本关系是明智的。
  • 5)在所有的方法中,我们提出的JML在几乎所有的指标方面都表现得最好。例如,就Twitter-2017的指标而言,我们的方法在MicroF1、Precision和Recall方面分别比D-GCN高出1.9%、2.3%和1.4%。这主要是因为我们使用联合框架的方法,利用了对两个子任务的有益线索,特别是通过跨模态关系检测和跨模态注意力整合。

对于MATE(多模态方面术语抽取)表5显示了不同方法的性能,这些方法只参与多模态方面术语的提取,与我们的联合方法中的子任务性能相比。从该表中,我们可以看到:

  • 1)UMT在所有基线中表现最差,这是由于SPAN将文本与图像中显示的对象区域对齐,而OSCGA将对象级图像信息和字符级文本信息结合起来预测方面。
  • 2)我们的联合方法中的子任务性能在大多数指标方面表现得更好,这表明我们的联合框架方法在方面情感信息和基于关系的视觉模式的帮助下促进了方面术语的提取。

对于MASC(多模态方面级情感分类)表6显示了不同方法的性能,这些方法只参与多模式方面的情感分类,与我们的联合方法中的子任务性能相比。从这个表中,我们可以观察到:

  • 1)TomBERT的表现比ESAFN好,这清楚地揭示了BERT作为一个优秀的预训练编码器,与基于LSTM的编码器相比,确实提高了文本嵌入的丰富性。
  • 2)我们的方法明显优于目前的基线。我们推测,有以下一些原因。首先,跨模态关系模块致力于有效地完善高质量的视觉表达。第二,我们的方法将方面情感分类定义为一个多方面的任务,考虑了多个方面情感的相互作用

4.4 Analysis

​在本节中,我们对一些实验结果作进一步调查,并对一些有意义的案例进行讨论。

消融实验为了进一步证明图像-文本关系的帮助,我们分别去除关系,即去除所有(W/o Relation All),去除图像-方面关系(W/o Relation MATE)和去除图像-情感关系(W/o Relation MASC)。此外,为了证明图像建模对我们的联合任务的重要性,我们去掉了视觉信息,即去掉了图像-方面的视觉(W/o vision MATE)和去掉了图像-情感的视觉(W/o vision MASC)。从表7中,我们观察到,去除图像视觉或图像-文本关系都会显著降低性能。这说明了我们的方法在完善视觉信息和模式融合辅助方面的有效性

案例研究。为了进一步证明我们的多模态联合任务方法的有效性,图3展示了三个由JML预测结果的例子,以及三个有代表性的基线DGCN、OSCGA-collapse和JML w/o relation all。我们可以明显地意识到:

  • 在例子(a)中,尽管DGCN可以准确地检测到地面事实的两个方面术语,但它对方面术语 "lionelmessi "给出了错误的情感预测。这主要是因为缺乏辅助的视觉信息
  • 在例子(b)中,OSCGA-collapse预测了一个错误的方面,这是因为在挖掘这两个子任务的视觉信息的过程中加入了具有相同视觉喂养的折叠标签
  • 在例子(c)中,我们发现JML w/o relation all预测了 "miami "方面的错误情绪,这表明如果没有跨模态关系的帮助,该方法会受到无用图像信息的干扰。然而,从这些案例中,我们观察到,我们良好的方法JML可以通过控制图像信息的流入和在一个联合框架中为两个子任务分别挖掘视觉信息来获得所有正确的方面术语和与方面有关的情感。

5 Conclusion

​在本文中,我们提出了一种多模态的联合方法来同时处理方面术语的提取和情感分类。我们的方法不仅可以对文本和图像之间的跨模式关系进行建模,确定视觉信息对文本的贡献有多大,还可以分别挖掘两个子任务的视觉信息,而不是用相同的视觉喂养进行折叠式标记。详细的评估表明,我们提出的模型明显优于几个最先进的基线。

​在我们未来的工作中,我们将把我们的方法扩展到更多的多模态多任务场景,比如多模态对话中的关系提取和情绪原因提取。此外,我们还想研究其他方法(如自监督神经网络)来更好地建立JMASA模型。

6 Acknowledgments

你可能感兴趣的:(论文精读,深度学习,自然语言处理)