ACL2019|Joint Type Inference on Entities and Relations via Graph Convolutional Networks

为了解决实体关系联合抽取任务,本文提出了一种在实体关系二分图上运行的图卷积网络。通过引入二元关系分类任务,可以用更有效和可解释的方式利用实体关系二分图结构,为实体关系的联合抽取任务开发了一个新的范例。

引言

对于实体关系抽取来说,现在主流的方法有两种。第一种是管道式(Pipeline),即首先使用实体模型来抽取实体,之后用抽取出的实体作为输入,使用关系模型来抽取关系。这种方法忽视了两个模型之间的相互影响,并且由错误传递的问题。第二种为联合模型,它可以将实体和关系整合到统一模型之中进行联合训练,得到的结果优于管道式的方法。
本文将实体关系联合抽取分为两个子任务,分别是实体范围检测(Entity Span Detection)和实体关系类型推导(Entity Relation Type Deduction)。在实体范围检测中使用序列标注的方法,在实体关系类型推导中使用一种基于图卷积网络的联合模型,同时两个模型进行联合训练。
在联合模型中,作者使用了二元关系分类器来确定两个实体是否形成有效关系。并通过这种方法,以更有效和可解释的方式探索实体关系二分图的结构。

方法

实体范围检测

本文使用序列标注的方法来进行实体范围检测。所使用的标注方法为BILOU架构:B为实体开始(begin),I为实体中间(inside),L为实体末尾(last),O为非实体(outside),U为单个词语范围(single word span)。
对于输入的句子 s s s,作者使用双向LSTM(biLSTM)去合并句子 s s s的正向和反向信息


h i h_i hi为在位置 i i i上LSTM正向和反向隐藏状态的级联, x i x_i xi w i w_i wi的词语表示,由与训练模型的 w i w_i wi词嵌入和通过CNN生成的字级别表示构成。之后通过使用softmax层来预测 w i w_i wi的标签 t ^ i \hat{t}_i t^i

其中 W s p a n W_{span} Wspan为参数。对于一个输入句子 s s s和优质标记序列 t = t 1 , . . . , t ∣ s ∣ t=t_1,...,t_{|s|} t=t1,...,ts,损失函数为

实体关系二分图

从上一步骤中可以得到实体范围集 ( ^ ϵ ) \hat(\epsilon) (^ϵ),并将此集合中所有的实体范围对作为潜在的关系。之后,对于句子 s s s,使用其中包含的所有实体和关系构建二分图,图中点的个数为 N = ∣ ( ^ ϵ ) ∣ + 分 号 ∣ ( ^ ϵ ) ∣ ( ∣ ( ^ ϵ ) ∣ − 1 ) / 2 N=|\hat(\epsilon)|+分号|\hat(\epsilon)|(|\hat(\epsilon)|-1)/2 N=(^ϵ)+(^ϵ)((^ϵ)1)/2,同时使用矩阵 H r 12 H_{r12} Hr12代表关系点嵌入, H e 1 H_{e1} He1 H e 2 H_{e2} He2代表实体点嵌入。如果将两个实体点之间有关系,则将两者与关系点进行连接,否则三个点保持独立,这样可以将二分图的生成视为一个二元关系分类问题。

对于给定句子 s s s中的关系点 r i j r_{ij} rij,为了获取二元关系标签 ( ^ b ) \hat(b) (^b),作者对关系点嵌入 H r i j H_{r_{ij}} Hrij使用了softmax:

其中 W b i n W_{bin} Wbin为训练参数,损失函数为:

由此可以得出邻接矩阵 A h a r d A_{hard} Ahard:1)对角线元素为1.0。 2)如果 P ( ( ^ b ) = b ∣ r i j , s ) > 0.5 P(\hat(b)=b|r_{ij},s)>0.5 P((^b)=brij,s)>0.5,则实体点与关系点之间的值设为1.0。3)其他值设为0.0。除此之外,作者还尝试了另外一种邻接矩阵 A s o f t A_{soft} Asoft,即使用概率P{\hat(b)}代替1.0。

I. 实体点嵌入
使用每个单词的biLSTM隐藏向量,并经过带有多层感知器的单层CNN,得到维度为 d d d的实体点嵌入 H e H_e He.

II. 关系点嵌入
对于关系点嵌入,相应的两个实体点嵌入,以及实体点组左边的词嵌入,实体点组右边的词嵌入以及两个关系点中间的词嵌入,在经过带有多层感知机的单层CNN之后,级联起来得到最终维度为 d d d的关系点嵌入 H r i j H_{r_{ij}} Hrij

联合类型推理

使用实体关系二分图建立多层GCN之后,为了预测实体点 e i e_i ei和关系点 r i j r_{ij} rij的类型,使用公式:

其中 W e n t , W r e l W_{ent},W_{rel} Went,Wrel为可训练参数,损失函数为:

其中 y , l y,l y,l为真实标签。

训练

最后总的损失函数为 ( L ) = ( L ) s p a n + ( L ) b i n + ( L ) e n t + ( L ) r e l \mathbb(L)=\mathbb(L)_{span}+\mathbb(L)_{bin}+\mathbb(L)_{ent}+\mathbb(L)_{rel} (L)=(L)span+(L)bin+(L)ent+(L)rel

实验

作者在数据集ACE05上进行了实验,此数据集包含7种实体类型和6种关系类型。具体实验结果如下:

其中L&J,Zhang和Sun为使用联合解码算法的模型,M&B和K&C为使用联合训练但未使用联合解码的模型,NN为作者未使用GCN的神经网络模型,GCN为使用GCN的神经网络模型。


结论

本文提出了一种简洁的基于GCN的模型,用于实体关系的联合抽取任务。与现有的方法相比,此方法创新的从GCN的角度进行实体关系抽取,提供了一种新的思路。



扫码识别关注,获取更多新鲜论文解读

你可能感兴趣的:(ACL2019|Joint Type Inference on Entities and Relations via Graph Convolutional Networks)