实体-关系联合抽取:End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures

论文地址:https://arxiv.org/pdf/1601.00770.pdf

代码地址:https://github.com/tticoin/LSTM-ER

文章标题:End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures(使用LSTMs对序列和树结构进行端到端关系提取)ACL2016

地位:实体-关系抽取开山之作

写在前面:这篇论文提出的一种新颖的模型,模型主要有两个部分word sequence 和 tree-structured,首次将神经网络运用到end-to-end的实体和关系抽取中。两部分分别进行实体检测和关系抽取,同时两部分通过堆叠形成一个整体单一的模型,共享各自的参数,使实体检测和关系抽取之间相互影响,这与句中实体和它们之间关系相互影响一致。文中还提出了两个增强点,实体预先训练(entity pretraining)抽样(scheduled sampling),这两点对实验效果有很大的影响。

Abstract

提出了一种新的端到端神经网络模型来提取实体及其之间的关系。我们的递归神经网络模型通过在双向序列LSTM-RNNs上叠加双向树型结构LSTM-RNNs来捕获单词序列和依赖树的子结构信息。这使得我们的模型可以在单个模型中使用共享参数联合表示实体和关系。我们进一步鼓励在训练期间发现实体,并通过实体训练前和计划抽样在关系提取中使用实体信息。我们的模型在基于最先进特征的端到端关系提取模型的基础上进行了改进,分别在ACE2005和ACE2004的F1-评分中实现了12.1%和5.7%的相对误差降低。我们还表明,我们基于LSTMRNN的模型在名义关系分类(semevalv -2010 Task 8)方面优于最先进的基于CNN的模型(F1-score)。

一、Introduction

摘要文本中实体间的语义关系提取是信息提取和自然语言处理的重要研究课题。传统系统将此任务视为两个独立任务的管道,即,命名实体识别(NER) (Nadeau和Sekine, 2007;Ratinov和Roth, 2009)和关系提取(Zelenko等,2003;但是,最近的研究表明,实体和关系的端到端(联合)建模对于高性能非常重要(Li和Ji, 2014;(Miwa and Sasaki, 2014)因为关系与实体信息密切互动。例如,Toefting和Bolton在Toefting转移到Bolton这句话中有一个Organization- (ORG-AFF)关系,Toefting和Bolton是个人和组织实体的实体信息是重要的。反过来,这些实体的提取又受到转到表示雇佣关系的上下文词的鼓励。之前的联合模型采用了基于特征的结构化学习。这种端到端关系提取任务的另一种方法是通过基于神经网络(NN)的模型实现自动特征学习。

使用神经网络表示实体之间的关系有两种方法:递归神经网络(RNNs)和卷积神经网络(CNNs)。其中,RNNs可以直接表示基本的语言结构,即,单词序列(Hammerton, 2001)和成分/依赖树(Tai et al., 2015)。尽管有这种表示能力,但在关系分类任务中,之前报道的基于长短时记忆(LSTM)的RNNs的性能(Xu et al., 2015b;Li et al.,2015)比使用CNNs更糟糕(dos Santos et al.,2015)。这些以前的基于lstm的系统大多包括有限的语言结构和神经结构,并且不联合建模实体和关系。我们能够通过基于包含互补语言结构的更丰富的LSTM-RNN体系结构的实体和关系的端到端建模来实现对最先进模型的改进。

词序列和树结构是提取关系的互补信息。例如,单词之间的依赖关系不足以预测来源和美国在句子“This is…”一位美国消息人士说,这个语境词是这个预测所需要的。许多传统的基于特征的关系分类模型从序列和解析树中提取特征(Zhou et al., 2005)。然而,以往基于RNNbased的模型只关注这些语言结构中的一种(Socher et al., 2012)。

我们提出了一种新的端到端模型来提取词序列和依赖树结构上实体之间的关系。我们的模型通过使用双向顺序(从左到右和从右到左)和双向树结构(自底向上和自顶向下)LSTM-RNNs,允许在单个模型中对实体和关系进行联合建模。我们的模型首先检测实体,然后使用单个增量解码的神经网络结构提取被检测实体之间的关系,并使用实体和关系标签对神经网络参数进行联合更新。与传统的增量端到端关系提取模型不同,我们的模型在训练中进一步加入了两个增强实体预训练(对实体模型进行预训练)和 计划抽样(Bengio et al., 2015),后者以一定的概率将(不可靠的)预测标签替换为黄金标签。这些增强减轻了在训练的早期阶段发现性能低下的实体的问题,并允许实体信息进一步帮助下游关系分类。

在端到端关系提取方面,我们改进了最先进的基于特征的模型,在F1-score中减少了12.1% (ACE2005)和5.7% (ACE2004)的相对错误。在名义关系分类(SemEval-2010 Task 8)上,我们的模型在F1-score上优于最先进的基于cnn的模型。最后,我们还对我们的各种模型组件进行了删减和比较,得出了关于不同RNN结构、输入依赖关系结构、不同解析模型、外部资源和联合学习设置的贡献和有效性的一些关键结论(积极的和消极的)

二、Related Work

LSTM-RNNs被广泛用于顺序标记,如从句识别(Hammerton,2001)、语音标记(Graves and Schmidhuber, 2005)和NER (Hammerton, 2003)。最近,Huang等人(2015)指出,在双向LSTM-RNNs上构建条件随机场(CRF)层与partof-speech (POS)标记、分块和NER中最先进的方法相比有可比性。

对于关系分类,除了传统的基于特征/内核的方法外(Zelenko et al., 2003;Bunescu和Mooney(2005)在semevalv -2010 Task 8 (Hendrickx et al., 2010)中提出了几种神经模型,包括基于嵌入的模型(Hashimoto et al., 2015)、基于cnn的模型(dos Santos et al., 2015)和基于rnnn的模型(Socher et al.,2012)。最近,Xu et al. (2015a)和Xu et al. (2015b)表明,基于特征/内核的系统中使用的关系参数之间的最短依赖路径在基于nnbased的模型中也很有用(Bunescu和Mooney, 2005)。Xu等人(2015b)也表明LSTMRNNs在关系分类中是有用的,但其性能不如基于cnn的模型。Li et al.(2015)使用基本的RNN模型结构,在关系分类上比较了单独的基于序列和树结构的lstm - rns。

树结构LSTM-RNNs的研究(Tai et al., 2015)修正了从下到上的信息传播方向,也不能像类型化依赖树那样处理任意数量的类型化子节点。此外,没有一种基于RNNbased的关系分类模型同时使用词序列和依赖树信息。我们提出了几个这样的新模型结构和训练设置,研究了同时使用双向顺序和双向树状结构LSTM-RNNs来联合捕获线性和依赖上下文来提取实体之间的关系。

对于实体间关系的端到端(联合)提取,现有的模型都是基于特征的系统(没有提出基于NN的模型)。这些模型包括结构化预测(Li和Ji, 2014;Miwa和Sasaki, 2014),整数线性规划(Roth和Yih, 2007;Yang和Cardie, 2013),卡片金字塔解析(Kate和Mooney, 2010),以及全球概率图形模型(Yu和Lam, 2010; Singh等人,2013)。其中,结构化预测方法在一些语料库上是最先进的。我们提出了一种改进的基于nnn的端到端关系提取方法。

三、Model

实体-关系联合抽取:End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures_第1张图片
图一:我们的增量解码端到端关系提取模型采用双向顺序和双向树结构LSTM-RNNs

我们使用表示字序列和依赖树结构的LSTM-RNNs来设计我们的模型,并在这些RNNs之上执行实体之间关系的端到端提取。图1为模型概述。该模型主要由三层表示层组成:单词嵌入层(embeddings layer,即嵌入层)、基于单词序列的LSTM-RNN层(sequence layer,即序列层),最后是基于依赖子树的LSTM-RNN层(dependency layer,即依赖层)。在解码过程中,我们在序列层上建立贪婪的从左到右的实体检测,在依赖层上实现关系分类,每个基于LSTM-RNN的子树对应两个被检测实体之间的关系候选。在解码整个模型结构之后,我们通过时间反向传播(BPTT)同时更新参数(Werbos, 1990)。依赖层叠加在序列层上,嵌入层和序列层由实体检测和关系分类共享,共享参数由实体标签和关系标签共同影响。

3.1、Embedding Layer

嵌入层处理嵌入表示。nw、np、nd和ne维向量v(w)、v§、v(d)和v(e)分别嵌入到单词、词性(词性)标记、依赖类型和实体标签中。(首先将词(words),词性(part-of-speech POS),依存关系(dependency types),实体标签(entity labels)分别映射为distributed representations,v(w)、v§、v(d)和v(e)。这些distributed represntations作为模型的训练参数的一部分)

3.2、Sequence Layer

序列层使用来自嵌入层的表示以线性序列表示单词。该层表示句子上下文信息并维护实体,如图1左下角所示。

我们用双向LSTM-RNNs表示句子中的单词序列(Graves et al., 2013)。第t字处的LSTM单元由一组nls维向量组成:一个输入门it、一个遗忘门ft、一个输出门ot、一个存储单元ct和一个隐藏状态ht。单位接收一个n维输入向量xt, ht-1前面的隐藏状态,和记忆细胞ct-1,和新向量计算使用以下方程:
实体-关系联合抽取:End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures_第2张图片

3.3、Entity Detection

我们将实体检测视为一个序列标记任务。我们使用一个常用的编码方案**BILOU (Begin, Inside, Last, Outside, Unit)**为每个单词分配一个实体标记(Ratinov和Roth, 2009),其中每个实体标记表示实体类型和单词在实体中的位置。例如,在图1中,我们将B-PER和LPER(分别表示person实体类型的开头和结尾)分配给Sidney Yates中的每个单词,以将该短语表示为PER (person)实体类型。

我们在序列层上执行实体检测。提出了一种两层神经网络的实体检测方法,该方法采用了h(e)和softmax输出层,这里,W是权重矩阵,b是偏置向量。
在这里插入图片描述
我们以贪婪的从左到右的方式为单词分配实体标签。在这个解码过程中,我们使用一个单词的预测标签来预测下一个单词的标签,从而考虑到标签的相关性。上面的NN接收它在序列层中相应输出的拼接和它前面单词的标签嵌入(图1)。

3.4、Dependency Layer

依赖层表示依赖树中一对目标词(对应关系分类中的关系候选词)之间的关系,负责关系的特定表示,如图1右上角所示。这一层主要关注依赖树中一对目标词之间的最短路径。因为这些路径被证明在关系分类中是有效的(Xu et al., 2015a)。例如,我们在图1的底部显示了Yates和Chicago之间的最短路径,这条路径很好地捕捉了他们关系的关键短语。

我们使用双向树结构的LSTMRNNs(即。通过捕获目标词对周围的依赖关系结构来表示候选关系。这种双向结构不仅向每个节点传播来自叶节点的信息,而且还传播来自根节点的信息。这对于关系分类特别重要,因为它利用了树底部附近的参数节点,而我们的自顶向下LSTM-RNN将树顶部的信息发送到这些近叶节点(与标准的自底向上LSTM-RNNs不同)。注意,Tai等人(2015)提出的树结构LSTM-RNNs的两个变体不能表示我们的目标结构,这些目标结构的子类型数量是可变的:子和树lstm不处理类型,而N-ary树假设有固定数量的子类型。因此,我们提出了一种新的树结构LSTM-RNN的变体,它可以共享同类型子节点的权矩阵,并且允许子节点的数目是可变的。对于该变量,我们使用以下公式计算LSTM单元第t个节点处与C(t)个子节点处的nlt维向量:
实体-关系联合抽取:End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures_第3张图片
为了研究合适的结构来表示两个目标词对之间的关系,我们用三种结构选项进行了实验。我们主要采用最短路径结构(SPTree),它捕获目标词对之间的核心依赖路径,并被广泛应用于关系分类模型中,例如(Bunescu和Mooney, 2005;徐等,2015a)。我们还尝试了另外两种依赖结构:子树和全树。子树是目标词对的最低共同祖先的子树。这为SPTree中的路径和单词对提供了额外的修饰符信息。FullTree是完整的依赖树。这捕获了整个句子的上下文。当我们为SPTree使用一个节点类型时,我们为子树和FullTree定义了两个节点类型,即,一个用于最短路径上的节点,另一个用于所有其他节点。我们使用类型映射m(.)来区分这两个节点。

3.5、Stacking Sequence and Dependency Layers

我们将依赖层(对应于候选关系)堆叠在序列层的顶部,以便将单词序列和依赖树结构信息合并到输出中。第t个单词的依赖层LSTM单元作为输入xt接收,即,其对应的隐含状态向量st在序列层中的级联,依赖项类型嵌入v(d) t(表示对parent3的依赖项类型),标签嵌入v(e) t(对应预测的实体标签)。

3.6、Relation Classification

我们使用检测到的实体的最后几个字的所有可能组合,逐步构建候选关系。译码过程中,BILOU方案中带有L或U标签的单词。例如,在图1中,我们使用带有L-PER标签的Yates和带有U-LOC标签的Chicago来构建关系候选。对于每个关系候选对象,我们实现了与关系候选对象中对p之间的路径相对应的依赖层dp(如上所述),神经网络接收由依赖树层输出构造的关系候选向量,并预测其关系标签。当被检测到的实体是错误的或者是没有关系的时候,我们将一对视为负关系。除了没有方向的负关系外,我们用类型和方向来表示关系标签。

将关联候选向量构造为拼接后的dp = ["hpA;# hp1;# hp2],“hpA的隐藏状态向量是顶级LSTM单位自下而上LSTM-RNN(代表最低的目标词的共同祖先对p),和# hp1 # hp2隐藏状态向量的两个LSTM单位代表第一和第二目标自上而下LSTMRNN的话。所有对应的箭头如图1所示。

与实体检测相似,我们采用了具有nhr维隐层h®的两层神经网络和具有权矩阵W、偏置向量b的softmax输出层。
在这里插入图片描述
我们构造了基于顺序LSTM-RNNs的树型LSTM-RNNs的关系分类输入dp,因此序列层对输入的贡献是间接的。此外,我们的模型使用单词来表示实体,因此它不能完全使用实体信息。为了缓解这些问题,我们直接将从序列层到输入dp到关系分类i的每个实体的隐藏状态向量的平均值连接起来。

此外,由于我们同时考虑了从左到右和从右到左的方向,所以我们在预测时为每个词对分配了两个标签。当预测的标签不一致时,我们选择积极和更自信的标签,类似于Xu等人(2015a)。

3.7、Training

我们采用了两种增强方法计划抽样(Bengio et al., 2015)和实体预训练,以缓解在训练的早期阶段实体预测不可靠的问题,并鼓励从被检测的实体构建积极的关系实例。

我们在对整个模型参数进行训练之前,利用训练数据对实体检测模型进行预处理。

四、Results and Discussion

4.1、Data and Task Settings

我们评估了三个数据集:ACE05和ACE04用于端到端关系提取,SemEval-2010 Task 8用于关系分类。我们使用前两个数据集作为我们的主要目标,并使用最后一个数据集来彻底分析和简化我们的模型的关系分类部分。

  • ACE05
    ACE05定义了实体之间的7个粗粒度实体类型和6个粗粒度关系类型。我们使用与Li和Ji(2014)相同的数据分割、预处理和任务设置。为了更好地解释模型性能,我们报告了主要的微观f1分数,以及实体和关系提取的微观精度和召回率。当一个实体的类型和头部区域正确时,我们就认为它是正确的。当一个关系的类型和参数实体正确时,我们就认为它是正确的;因此,我们将错误实体上的所有非负关系视为假阳性。
  • ACE04
    ACE04定义了与ACE05相同的7个粗粒度实体类型(Doddington et al., 2004),但是定义了7个粗粒度关系类型。我们遵循Chan and Roth(2011)和Li and Ji(2014)的交叉验证设置,以及ACE05的预处理和评估指标。
  • SemEval-2010 Task 8
    semevali -2010 Task 8在名词之间定义了9种关系类型,而当两个名词之间没有任何关系时,则定义了第10种类型Other (Hendrickx et al., 2010)。我们将另一种类型视为负关系类型,没有考虑方向。数据集包含8000个训练和2717个测试句子,每个句子都用两个给定名词之间的关系进行注释。我们从训练集中随机选择800个句子作为我们的开发集。我们遵循官方任务设置,并报告9个关系类型的官方宏观平均f1分(Macro-F1)。

4.2、Experimental Settings

我们使用cnn库实现了我们的模型。我们使用斯坦福神经依赖parser (Chen and Manning, 2014)分析了文本和原始的斯坦福依赖关系。在初步调整的基础上,我们将嵌入维度nw固定为200,np, nd, ne固定为25,中间层(LSTM-RNNs的nlt和nhe,隐藏层的nhr)固定为100。我们通过word2vec (Mikolov等人,2013)训练维基百科8和随机初始化所有其他参数的字向量。我们调整超参数使用开发设定为ACE05和semevalv -2010任务,以实现初级(微观和宏观)f1高分。对于ACE04,我们直接采用了ACE05的最佳参数。超参数设置如补充资料所示。对于SemEval-2010任务8,我们还省略了实体检测和标签嵌入,因为只有目标名被注释,任务没有定义实体类型。我们的统计显著性结果基于近似随机化(AR)检验(Noreen, 1989)。

4.3、End-to-end Relation Extraction Results

实体-关系联合抽取:End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures_第4张图片
表1对比了我们的模型和Li和Ji(2014)10在最终测试集上基于最先进特征的模型,结果表明我们的模型比最先进的模型表现得更好。
实体-关系联合抽取:End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures_第5张图片
为了分析我们的端到端关系提取模型的各个组成部分的贡献和影响,我们对ACE05开发集进行了消融测试(表2)。在不进行计划采样的情况下,性能略有下降,在去除实体预训练或同时去除实体预训练或同时去除两者时,性能显著下降(p<0.05)。这是合理的,因为模型只能在发现两个实体时创建关系实例,如果没有这些增强,发现一些关系可能就太晚了。删除标签嵌入不影响实体检测性能,但降低了关联分类中的召回率。这说明实体标签信息有助于检测关系。

我们还展示了在不共享参数的情况下的性能,即嵌入和序列层检测实体和关系(—Shared参数);我们首先训练实体检测模型,用模型检测实体,然后利用被检测实体建立一个单独的关系提取模型,即,没有实体检测。这个设置可以看作是一个流水线模型,因为两个单独的模型是按顺序训练的。在没有共享参数的情况下,实体检测和关系分类的性能略有下降,但差异不显著。当我们删除所有的增强时,即的性能显著低于SPTree (p<0.01),表明这些增强为端到端关系提取提供了互补优势。

实体-关系联合抽取:End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures_第6张图片
接下来,我们在表3中展示了不同LSTM-RNN结构的性能。我们首先比较三种树结构LSTM-RNNs的输入依赖结构(SPTree、子树、FullTree)。当我们将最短路径中的节点与其他节点区分开来时,这三种结构的性能几乎相同,而当我们不区分它们时(-SP),即最短路径外的信息,即。、FullTree (-SP),显著影响性能(p<0.05)。然后,我们将我们的树结构LSTM-RNN (SPTree)与Tai等人(2015)的子和树结构LSTM-RNN在最短路径上进行比较。Child-Sum的性能比SPTree模型差,但下降幅度没有上面那么大。这可能是因为模型中的差异只出现在具有多个子节点的节点上,而除最小公共节点外的所有节点都有一个子节点。

最后,我们使用最短路径(表3中的最后两行)展示了两个基于序列的LSTM-RNNs的对应结果。LSTM单元接收来自与周围依赖项类型和方向的嵌入式连接的序列层的输入。我们将关系候选的两个rns的输出连接起来。SPXu是我们对Xu等人(2015b)提出的最短路径LSTM-RNN的适应,以匹配我们的基于序列层的模型。它有两个LSTM-RNNs作为最短路径的左右子路径。我们首先计算这两个rns的LSTM单元的最大池,然后连接关系候选的池的输出。与这些基于序列的LSTM-RNNs的比较表明,一个树型LSTM-RNN在表示最短路径方面可以与基于序列的LSTM-RNN相媲美。

总体而言,表3中LSTM-RNN结构的性能比较表明,对于端到端关系提取,选择适当的输入树结构表示(即(例如,最短路径)比选择LSTM-RNN结构更重要。,顺序与基于树的比较)。

4.4、Relation Classification Analysis Results

五、Conclusion

提出了一种基于双向顺序树双向树结构LSTM-RNNs的新型端到端关系抽取模型,该模型同时表示字序列和依赖树结构。这允许我们代表实体和关系在一个模型中,实现先进的收益,基于功能的系统端到端关系提取(ACE04和ACE05),并显示类似的性能要优于最新最先进的CNNbased模型名义关系分类任务(semeval - 2010 8)。

我们的评估和消融导致了三个关键的发现。首先,单词序列和依赖树结构的使用是有效的。其次,使用共享参数进行训练可以提高关系提取的准确性,特别是在使用实体预训练、计划抽样和标签嵌入时。最后,在关系分类中得到广泛应用的最短路径也适用于神经LSTM模型中树结构的表示

你可能感兴趣的:(实体-关系联合抽取,NLP,实体关系联合抽取,知识图谱)