通过统一多模态Transformer(UMT)的实体扫描检测(ESD)来改进多模态命名实体识别(MNER)
论文名称:Improving Multimodal Named Entity Recognition via Entity Span Detection with Unified Multimodal Transformer
论文作者:Jianfei Yu, Jing Jiang, Li Yang, Rui Xia
论文地址:2020.acl-main.306 https://www.aclweb.org/anthology/2020.acl-main.306/
论文代码:UMT https://github.com/jefferyYu/UMT
论文摘要:
本文研究了社交媒体帖子的多模态命名实体识别(MNER)。现有的MNER方法主要有两个缺点:(1)尽管有了些词感知的视觉表示,但它们的词表示对视觉语境(the visual context,也可译为“视觉上下文”,指环境里观察物和附近的关系)不敏感。(2)他们中大多数都忽略了视觉语境带来的偏差。为了解决第一个问题,我们提出了一个多模态交互模块(MMI),以获得图像感知的词表示和词感知的视觉表示。为了减轻视觉偏差,我们进一步提出利用纯文本实体跨度检测(ESD)作为辅助模块,并设计了一个统一多模态Transformer(UMT)来指导实体跨度检测(ESD)的最终预测。实验结果表明,我们的统一方法在两个基准数据集上达到了新的先进性能。
先上两个例子,
图(a).凯文·杜兰特穿双白色乔丹进入甲骨文球馆
图(b).投票选出丛林之王——是Kian还是David?
研究的现存问题:
1、社交媒体帖子中许多一词多义实体的含义往往依赖于其上下文词
例如图(a),没有上下文词“wearing off”,很难弄清乔丹是指一个鞋品牌还是一个人。
2、只考虑词感知的视觉表示,而没有考虑图像感知的词表示
现有的多数方法都侧重于跨膜态交互建模以获得词感知的视觉表示,但最终隐藏层中的词表示仍然基于文本的上下文,而对视觉上下文不敏感。 直观地说,关联的图像通常会提供更多的上下文来决定多义实体,这应该有助于最终的单词表示(例如在图(b)中,图像可以监督Kian和David的最终单词表示,比起动物,使之更接近人类)。
3、忽略了视觉上下文带来的偏差
以前大多数方法在很大程度上都忽略了融合视觉信息的偏差。 实际上,在大多数社交媒体帖子中,相关图像往往只突出句子中的一两个实体,而没有提到其他实体。 在这种情况下,直接整合视觉信息将不可避免地导致模型会更好地识别图像突出显示的实体,而无法识别其他实体,例如图中的甲骨文球场和丛林之王。
论文的技术特点:
1、BERT作为句子编码器
BERT的多头自注意机制可以指导每个词依靠上下文捕获语义的语法。
2、提出了一种多模态交互(MMI)模块,为每个输入词生成图像感知的词表示和文字感知的视觉表示
为了更好捕获词和图像之间的隐含联结,论文提出了一种多模态交互(MMI)模块,该模块将标准Transformer层与跨模态注意机制结合起来,分别为每个输入词生成图像感知的词表示和文字感知的视觉表示。
3、利用基于文本的实体跨度检测(ESD)作辅助任务,设计了一个基于Transformer的统一神经架构
为了在很大程度上消除视觉上下文的偏差,我们提出将基于文本的实体跨度检测(ESD)作为辅助任务,并设计了一种基于Transformer的统一神经结构。
4、设计一个转换矩阵用来构造辅助任务和主任务之间的对应关系
设计一个转换矩阵用于构造辅助任务和主要任务之间的对应关系,从而充分利用实体跨度信息来指导最终的MNER预测。
任务制定:
给定一个句子S及其相关图像V作为输入,MNER的目标就是从S中提取出一组实体,并将每个提取的实体分类为预定义的类型之一。
与大多数现有的MNER工作一样,论文将任务描述为一个序列标记问题。 设S=(s1,s2,…,sn)表示输入单词的序列,y=(y1,y2,…,yn)是相应的标签序列,其中yi∈y且y是带有BIO2标记模式的预定义标签集。
上图UMT的总体架构包含三个主要组件:
(1)单模态输入的表示学习;
(2)用于MNER的多模态 Transformer;
(3)具有辅助实体跨度检测(ESD)模块的统一结构。
词表示:
由于BERT可以在不同的上下文语境中对同一单词给出不同的表示,选取BERT作为句子编码器。
句子预处理:每个输入句子插入两个特殊标记,[CLS]在开始,[SEP]在结尾。
Embedding:单词+段落+位置
例如:Kevin为EKevin+EA+E1
得到X = (x0, x1, . . . , xn+1),进入BERT编码器,从而得到C = (c0, c1, . . . , cn+1),其中ci是xi的基于上下文的表示。
视觉表示:
选取CNN图像识别模型之一的ResNet作为图像编码器,提取输入图像在其深层中有意义的特征表示。论文将最后一个卷积层的输出保留在预先训练的152层ResNet中,以表示每个图像,这样基本可以将每个输入图像分割成7×7=49个相同大小的视觉块,并用2048维向量表示每个块。
具体来说,给定一个输入图像V,首先将其大小调整为224×224像素,接着从ResNet获得其视觉表示,表示为U=(u1,u2,…,u49),其中ui是第i个视觉块的2048维向量表示。 为了将视觉表示投影到与词表示的相同空间中,论文用线性变换进一步转换U:
V= WuT·U,其中Wu∈R2048×d权重矩阵。
V=(v1,v2,…,v49)是从ResNet生成的视觉表示。
首先在C上添加一个标准Transformer层,以获得每个词的文本隐藏表示:R=(r0,r1,…,rn+1),其中ri为xi生成的隐藏表示。
虽然上面这Transformer层可以捕获哪些上下文词与输入词xi的预测更相关,但它没有考虑与之相关的视觉上下文。 一方面,由于社交媒体中文本内容的长度较短,额外的视觉上下文可以指导每个词学习更好的词表示。 另一方面,由于每个视觉块通常与几个输入词密切相关,结合视觉块表示可以使其相关词的预测更准确。 在这些观察的启发下,论文提出了一个多模态交互(MMI)模块来学习图像感知的词表示和每个词的词感知的视觉表示。
跨模态Transformer层(CMT):
上图红色CMT层:(输入:视觉模态作Q,文本模态作K、V)M头跨模态注意力,求和&归一化,前馈网络,求和&归一化;P=(p1,p2,…,p49)是CMT层的输出表示。
上图紫色CMT层:(输入:文本模态作Q,视觉模态作K、V,与文本的CMT层对称)M头跨模态注意力,求和&归一化,前馈网络,求和&归一化;Q=(q0,q1,…,qn+1)是CMT层的输出表示。
为了获得每个词的视觉表示,有必要将每个词与其密切相关的视觉块对齐,即为其相关/不相关的视觉块分配高/低注意力权重。
上图红色耦合CMT层:(输入:文本模态作Q,输出表示P作K、V)M头跨模态注意力,求和&归一化,前馈网络,求和&归一化;A=(a0,a1,…,an+1)是耦合CMT层的输出表示。
耦合CMT层的存在意义:由于视觉表示在上述红色CMT层中被视为Q,每个生成的向量pi对应于第i个视觉块,而不是第i个输入字。 理想情况下,图像感知的词表示应该对应于每个单词。
视觉门:将许多虚词,如the,of和well与任何视觉块对齐不合理。因此,引入视觉门来动态控制视觉特征的贡献。 根据以往工作实践,论文将上述词表示A和视觉表示Q的信息结合起来,设计了一个视觉门。基于门输出,我们可以得到最终的词感知的视觉表示为B=g·Q(g的公式详见论文)。
为了合并词表示和视觉表示,本文将A和B连接起来,以获得最终的隐藏表示H=(h0,h1,…,hn+1)。然后,将H送到标准CRF层,该层定义了给定输入句S及其相关图像V的标签序列y的概率(详见论文)。
由于上面提出的多模态Transformer主要集中在对文本和图像之间的交互进行建模,因此它可能导致学习模型过分强调图像突出显示的实体,而忽略剩余的实体。 为了缓解这种偏差,论文提出基于文本的实体跨度检测(ESD)作为一项辅助任务。 由于ResNet是在ImageNet上预训练的,用于图像识别任务,其高级表示与最终预测密切相关,即包含对象的类型。 这表明来自ResNet的视觉表示对于识别检测到的实体类型应该非常有用,但不一定与句子中的检测实体跨度相关。 因此,我们使用纯文本的ESD来指导我们的主要任务MNER的最终预测。
辅助实体跨度检测模块:
本文将ESD建模为另一个序列标记任务,使用z=(z1,…,zn)表示标签序列,其中zi∈z且z={B,I,O}。 如图左上部分所示。本文使用另一个Transformer层来获得其特定的隐藏表示,为T=(t0,t1,…,tn+1),然后将其送到CRF层,以预测给定S的标签序列z的概率(详见论文)。
转换矩阵:
虽然ESD被建模为与MNER分离的辅助任务,但这两个任务是高度相关的,因为每个ESD标签应该只对应于MNER中的标签子集。例如,给出了图中的句子,如果第一个令牌被预测为ESD中实体的开始(即有标签B),它也应该是MNER中类型实体的开始(例如,有标签B-PER)。
修改后的MNER CRF层:
在获得转换矩阵后,本文进一步提出充分利用基于文本的实体跨度预测(ESD)来指导MNER的最终预测。 具体说,就是修改了MNER的CRF层,将实体跨度信息从ESD纳入E中。