论文精读:Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal Relation Detection

1.JML方法

这篇2021EMNLP的论文首先定义了联合多模态方面集情感分析任务。
在给定数据样例D={(X_n,I_n,A_n,S_n)}n=1~N的情况下,X为长为k的单词序列,I是的图片。而联合任务即是同时抽取方面术语list A(m个),并对这m个aspect进行分类的sentiment list S。其实就是联合抽取方面术语和其对应的情感(ATE+SC),基于正确的Aspect来predicate sentiment。【 the goal of JMASA( Joint Multimodal Aspect-Sentiment Analysis ) is to identify all the aspect-sentiment pairs, i.e., (Sergio Ramos, Positive) and (UCL, Neutral).】

而在VLP-MABSA一文中,包括三个子任务,JABSA是其一,其二与其三是Multimodal
Aspect Term Extraction (MATE), and Multimodal
Aspect-oriented Sentiment Classification (MASC).
MASC与JABSA是对正确预测的方面进行evaluate的方法不同,是在推理阶段向模型框架中的解码器提供所有的gold aspect,并对所有aspect进行evaluate。

代码中的JML简单来说就是BERT+RESNET152,整体框架是先图文关系探测,再分层的多模态学习。代码框架是基于SpanABSA的代码,延续用的torch1.1.0(相当古老了),个人可以用python3.6跑通(Resnet152是来自2021AAAI的RpBert预训练的,关系检测则是借用了VLBERT的部分架构,其TRC数据集更是来自2019的一篇将Twitter数据集图文关系分类的论文)

(1)Cross-modal Relation Detection

整合图文关系到模型中,只保留auxiliary visual information来指导text。这里采用TRC数据集(textimage-data.csv),
论文精读:Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal Relation Detection_第1张图片
简单来说就是text_is_represented列为1( Some or all of the content words in the text are represented in the image )
以及image_adds=1(Image has additional content that represents the meaning of the text and the image),其中具体又分为(1)图片包含其他文本,为文本增加了额外的意义,或者(2)图片描述了一些东西,为文本增加了信息,或者(3)图片包含其他实体,被文本所引用。

符合以上,则代表图文相关。
论文精读:Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal Relation Detection_第2张图片
关系探测属于预训练步骤,首先,先得到Bert和Resnet的自注意力的模态表示H_o和H_x,再分别获取t2i和i2t的跨模态交互语义捕捉。
最后,在FFN的时候可通过softmax得到关系概率p_r(若<0.5则=0),H是以上四个拼接的
在这里插入图片描述
将其加入交叉熵函数可得关系损失。
论文精读:Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal Relation Detection_第3张图片

(2)Multi-modal Aspect Terms Extraction

论文精读:Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal Relation Detection_第4张图片
在这里插入图片描述
前文关系探测的结果与ResNet的图像嵌入输出进行mutmal。即通过G_r这个关系分数来控制附加的视觉线索。可得到跨模态state H_a
在这里插入图片描述
有效的视觉线索与T(BERT输出)做ATT_cross,再和T进行element-wise addition。
论文精读:Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal Relation Detection_第5张图片
不同于BIO,此处采用Span(句子开始和结束)来识别候选Aspect,不过由于搜索空间大和多词情感不一致,因此是得到softmax的情感分数。
在训练过程中,考虑到每个句子可能包含多个方面,会标记A中所有方面实体的跨度边界。y_s_i是表明第i个位置是否是一个aspect的开始,y_e标记结束位置

(3)Multi-modal Aspect Sentiment Classification

通过基于位置向量y_s,y_e的跨模态state H_a,在FFN的时候进行分类得sentiment label(Figure右上角)。
论文精读:Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal Relation Detection_第6张图片

具体来说,从y s和y e接收一个多方面跨度列表a。用注意力机制将其对应的边界(si ,ei)中的hidden state representation Ha总结为一个向量Hi u
论文精读:Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal Relation Detection_第7张图片
与之前的公式9,10,11,12类似
论文精读:Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal Relation Detection_第8张图片

(4) Joint Loss

由于它是方面术语提取和方面情感分类的联合任务,需要同时计算两组不同的损失
论文精读:Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal Relation Detection_第9张图片
ys, ye, yp 是 one-hot 标签,分别表示gold开始、结束位置、真实情感极性,a、m 分别是句子tokens的数量、aspect。

你可能感兴趣的:(paper,深度学习,自然语言处理,计算机视觉,多模态,情感分析)