TomBert:一种基于Bert改进的多模态的情感识别方法

TomBert

  • 摘要
  • 引言
  • 模型
    • 数据描述
    • mBERT
    • TomBERT

摘要

论文地址为Adapting BERT for Target-Oriented Multimodal Sentiment Classification

基于目标的情感分类是细粒度情感分类的重要任务。即我们关注输入句子中部分,视作目标,对这一部分进行情感分析。
传统方法只注重基于文本的情感分类,这边考虑图文多模态融合的方法,提出了新的TMSC(target-oriented multimodal sentiment classification)。具体做法是先利用BERT获得文本词嵌入,然后利用cross-attention,以target文本为掩码,做图像的attention,获得目标-图像的attention嵌入,最后叠加多层self-attention,获得的模型结果要好于传统TSC和TMSC。

引言

基于目标的情感分析,就是对句子输入中的目标词进行针对的情感分析。举例:

句子是“Georgina Hermitage is a #one2watch since she broke the 400m T37 WR.”
目标词是“ Georgina Hermitage”和“400m T37“
经过TSC,得到 Georgina Hermitage的情感分析是正向,400m T37的情感分析是负向

当前这些TSC方法的缺点:

  1. 没有利用预训练模型来初始化模型参数,随机的参数初始化可能导致sub-optimal
  2. 只关注文本,没有考虑图文结合

按:这里关于预训练的解释非常有意思,相比随机的初始化,预训练初始化更不容易陷入局部最优,因为它是经过海量数据训练,更好捕捉了语言中广泛的关系。

这里的解决方法是构建多模态预训练模型,预训练模型采用BERT,多模态采用target-attention机制实现目标和图片的对齐(目标作为Q,图片作为K和V),和目标与文本对齐(目标作为Q,文本作为K和V),此外,在此基础上stack多层attention来实现图文对齐融合。

模型

数据描述

包括文本信息,对应图片信息,和目标信息,目标是从文本中提取的子序列。
输出结果为针对目标信息的情感分类
在BERT的输入格式中,形式为:[CLS]文本信息(其中目标子序列用$T$替代)[SEP]目标序列[SEP]

mBERT

对文本和图片分别通过预训练的模型(resnet和Bert)获得嵌入向量,将图文向量concat后,直接过多层transformer-encoder,得到预测结果。
可以理解成前融合,图文向量拼接后进入Bert。
TomBert:一种基于Bert改进的多模态的情感识别方法_第1张图片
缺点是target不敏感。对于同一张图,即使文本中target不同,但是输出的图片向量也是相同的。

TomBERT

针对mBERT问题的意图:
针对不同的target应当关注图片中不同的部分

按:针对如色情这类有成熟训练模型的,可以直接利用预训练模型,但是针对无成熟数据训练的类别,可以将类别作为Q和图片进行cross-attention。

设计一个Target-Image Matching Layer。利用BERT获得target的词嵌入表示H作为Q, 用图像作为K,V,计算attention,stack Lt次,最终获得一个target-sensitive visual output
在这里插入图片描述
在这里插入图片描述
H v = T I L t ( G , T ) H_v = TI_{L_t}(G,T) Hv=TILt(G,T)

TomBert:一种基于Bert改进的多模态的情感识别方法_第2张图片

你可能感兴趣的:(多模态,NLP,深度学习,自然语言处理,情感分析)