Joint Event Extraction via Recurrent Neural Networks

thien Huu Nguyen
摘要:事件提取是一个在信息提取方面特别具有挑战性的问题。这个问题的最先进的模型要么是应用卷积神经网络一个管道框架(Chen等人,2015年)或通过结构化的方式遵循联合架构具有丰富的本地和全局特性的预测(李et al .,2013)。前者能够从基于连续和广义的词语表示的数据中自动学习隐藏要素特征。后者,另一方面,也有能力减轻管道方法的错误传播问题和通过离散结构利用在事件触发器和参数角色之间的相互依赖关系。在这项工作中,我们建议在一个拥有双向循环神经网络的联合框架中进行事件提取,从而受益于两个模型,以及解决现有方法中固有的问题。为联合模型我们系统地研究不同的记忆特征,并证明了该模型在2005年数据集上取得了最先进的性能。
前言
我们解决了事件提取的问题(EE):识别指定类型的事件触发器及其在文本中的参数。触发器通常是唤起一些有趣事件的单个动词,而论元是参与事件的实体。这是自然语言处理(NLP)信息提取的一项重要而具有挑战性的任务,因为同一个事件可能以各种陈述呈现,一种陈述在不同的环境中可能表达不同的事件。
EE有两种主要的方法:(i)连接预测事件触发器和论元的方法作为一个结构化的预测问题,以及(ii)管道的方法首先执行触发预测,然后在不同的阶段识别论元。
最成功的EE联合系统(Li et2013年)基于结构化感知器算法,它具有大量的本地和全局特性。这些特性是为了捕捉对EE有直观帮助的离散结构,它使用NLP工具包(例如,语音标签、依赖项和组成标记)。联合系统的优点是双重的:(i)从上游组件(触发器识别)到下游分类器(论元识别),减轻了了错误的传播;(ii)通过全局特征有益于获得事件触发词和论元角色之间的内部依赖关系。例如,考虑下面的句子(取自李等人。(2013))2005年ACE数据集:
In Baghdad, a cameraman died when an American tank fired on the Palestine hotel
在这一句子中,died 和 fired 各自是死亡和袭击事件类型的事件触发词。在管道方法中,经常简单论元分类来实现camaraman 是die事件的目标论元,因为两个单词在句子中相隔很近。但是,因为因为camaraman远离fired,在管道方法中论元分类很有可能因为其本地特征错分camaraman为袭击事件的目标论元。通过依赖全局特性对事实进行编码,在同一个句子中死亡事件的论元受害者经常也是攻击事件中的目标论元。
不管上面的优势,联合方法(李等人2013)缺乏对不可见的文字/特征的概括,且无法为EE提取潜在结构(由于其手工标注特性集的离散表示)(Nguyen和Grishman,2015b;陈等人。,2015)。
EE最成功的管道系统最新是(Chen等人,2015)解决了(李等人(2013)通过动态多池卷积神经网络(DMCNN)对联合系统的研究的缺点。在这个系统中,单词是由连续表示(Bengio等人,2003年;
Turian et al .,2010;Mikolov et al.,2013a)和特性是由DMCNN自动从数据中学习的,从而减轻了看不见的文字/特征问题和为给定的数据集提取更有效的特性。然而,作为陈的系统et al.(2015)是流水线上的,利用事件触发器和论元角色之间的相互依赖关系(Li等人,2013),它仍然受到错误传播和失败的固有限制。最后,我们注意,离散的特征,在先前的EE(Li等人,2013年)的研究中显示是有帮助的,但是Chen等人(2015年)没有考虑到。
在李等人(2013)和陈等人(2015)的这些特点的指导下,在这项工作中,我们建议通过增加了离散特性的循环神经网络(RNNs)的联合方法(Hochreiter和施米德休伯,1997;Cho等人,2014年)解决EE问题,从而继承了这两个系统的所有好处,并克服了它们固有的问题。据我们所知,这是第一次
使用神经网络来做联合事件抽取。
我们的模型涉及到两个rnn在正向和反向两个方向计算来对句子学习更丰富的表示。这表示然后被用来预测事件触发器和论元角色。为了捕捉触发器和论元角色之间的相互依赖关系,我们引入了内存矢量/矩阵来在标记句子的过程中储存预测信息。
我们系统地探索各种内存矢量/矩阵以及不同的方法来进行联合模型的文字表示学习。实验结果表明,在广泛使用的ACE 2005 数据集中,我们的系统获得了很好的表现。
2. 事件抽取任务
我们关注的是ACE中事件抽取任务。ACE定义一个事件为发生了一些变化或者导致了一些变化的状态。我们采用以下术语:
•事件提及(Event mention):事件发生的一个短语或句子,包括一个触发器和任意数量的论元。
•事件触发(Event trigger):清晰表达一件事件发生的主要词汇。
•事件论元 Event argument:实体提及,时间的表达或值(例如职位名称)作为事件中一个特定角色的参与者或属性。
ACE注释8种类型和33个子类型(例如,攻击,死亡,起始位置),用于事件提及也对应于类型和子类型事件触发词。每个事件类型都有自己的角色集合由事件参数填充。例如,Die事件的角色包括位置、受害者和时间。在所有时间子类型中所有角色的角色总数是36。
给定一个英语文本文档,事件提取系统需要识别每个句子中特定子类型的事件触发器及其对应的论元角色。继前一份工作(Liao and Grishman,2011年;李等人2013;陈等人,2015年),我们假设候选论元(i.e, the entity mentions, temporal expressions and values)已经提供到事件提取系统。(ACE 2005 标注数据)
3.模型
我们将EE任务形式化为如下。让W =w1w2 … wn作为一个句子,其中n是句子的长度,wi是第i个记号。另外,E =e1,e2,……ek,ek表示句子中实体提及(k是实体提及的个数可以为0)。每一个实体都有头部和实体类型的偏移。我们进一步假设i1,i2,……ik。ik分别是e1 e2.。实体集合中最后一个词的索引。
在EE中,对于句子中的每一个标记wi,我们都需要预测事件子类型(如果有的话)。如果wi触发一些感兴趣的事件,然后我们需要预测每个实体所提到的角色(如果有的话)ej在事件中发挥的作用。
在这个工作中,事件提取的联合模型由两个阶段组成:(一)编码阶段中,应用循环神经网络来诱导更多句子的抽象表示;(二)预测阶段,使用新表示为W同时执行事件触发器和参数角色识别。图1显示了一个模型的概述。
3.1 编码
3.1.1 句子编码
在编码阶段,我们首先使用以下三个向量的串联方法将每个token Wi转换成实值向量xi:
1。词向量wi:这是通过查找一个预先训练的单词嵌入表D来获得的(Collobert and Weston,2008年;Turian et al .,2010;Mikolov et al .,2013)。
2。实值嵌入向量为实体类型的wi:这个矢量是由先前的工作(Nguyen和Grishman,2015b)并通过查找实体类型嵌入表生成(随机初始化)为实体类型的wi。请注意我们还使用了BIO注释模式:使用实体提及的头部来分配实体类型的标签到每个token(Nguyen和Grishman(2015 b)。
3.二元向量的维数在依赖树中对应于单词之间的可能关系。在依赖树W中只有当存在一条边时
与wi的对应关系时,向量的每一个维度的数值被设为1。向量表示了依赖特征,在以往的研究中被证实是有用的(Li et al., 2013)。
注意,我们不使用相对位置特征,不像之前的神经网络工作EE(Nguyen and Grishman,2015b;陈等。2015)。原因是我们联合预测了整个句子的触发器和参数角色,因此在句子中没有固定的位置来进行设置锚点。
从token wi到向量xi本质上是转换输入句W变成了实值向量X=(x1,x2,。。xn),被循环的神经网络用于学习更有效的表征。
3.1.2 循环神经网络 RNN
考虑输入序列X=(x1,x2,。。xn)。在每一步中i中,我们计算
基于当前输入向量xi的隐藏向量ai和前面的隐藏向量ai -1,利用非线性变换函数Φ: αi = Φ(xi, αi-1)。这个循环的计算是通过X来生成隐藏的向量序列(α1, α2, … , αn)用 RNN(toright)(x1, x2, … , xn) = (α1, α2, … , αn).
循环机制的一个重要特征是它自适应地积累了从位置1到i的上下文信息到隐藏向量ai,使ai成为一个丰富的表示。然而,ai对在位置i的时间触发器和参数预测是不够的,因为这样的预测可能需要依赖于未来的上下文信息(i.e, from position ito n).为了解决这个问题,我们运行第二个RNN,反方向从Xn到X1
生成第二个隐藏的向量序列:RNN(toleft)(xn, xn-1, … , x1) = (αn0 , αn0 -1, … , α10 )
这αi总结了来自n到i的位置的上下文信息。最终,链接隐藏向量(α1, α2, … , αn) 和(αn0 , αn0 -1, … , α10 ): hi = [αi, αi0],我们得到了新的表示(h1,h2,……hn)。注意,hi更侧重于位置i,基本上封装了上下文信息整个句子(从1到n)。
至于非线性函数,简单的Φ被视为一层前馈神经网络。不幸的是这函数容易遭遇梯度消失问题(Bengio et al., 1994),这成为RNN训练的一大挑战。这一问题可以被LSTM模型减轻(Hochreiter and Schmidhuber, 1997; Gers, 2001)。在这项工作中,我们使用LSTM的变体:called the Gated
Recurrent Units (GRU) from Cho et al. (2014).GRU被证实获得良好的表现(Chung et al., 2014; Jozefowicz et al., 2015).

3.2 预测
为了联合预测W中触发词和论元角色,我们保持一个二进制的内存矢量Gtrgi给触发器,二进制内存矩阵Gargi给论元(每次i)。矢量/矩阵设置为初值0(i=0)在W的预测过程中更新。
考虑到在编码阶段给出双向表示h1,h2,……,hn和初始内存矢量/矩阵,联合预测过程在句子中循环n个token(从1到n),在每一步i中,我们执行以下三个阶段:
(1)wi的触发词预测;
(2)关于wi所有的e1,……ek的论元角色预测
(3)使用先前的内存向量/矩阵

进行这一步的

计算,预测结果输出在先前阶段。
这一过程的输出结果是wi针对子类型触发词的预测,被预测的论元角色ai1, ai2, … , aik和内存向量/矩阵

注意ti必须是事件子类型如果wi是感兴趣事件的触发词,或者“other”,另外一种情况,假如wi是一个触发词且ej是相关事件的论元,aij,相比之下,是关于wi中实体提及ej的论元角色,否者aij为“other”(j=1 to k)
3.2.1 触发词预测
针对wi的触发词预测阶段,我们首先计算wi的特征表示向量Rtrgi 使用以下三种向量连接的方法:
hi:隐含层向量概述输入句子的整个上下文全局。
Ltrgi:wi的本地上下文向量。由wi的d个窗口向量生成。Ltrgi = [D[wi-d], … , D[wi], … , D[wi+d]]
Gtrgi-1:前一步的内存向量。
表示向量Ritrg = [hi, Ltrg i , Gtrg i-1]作为使用softnax的前馈神经网络Ftrg的输入,最后计算事件类型的分布概率Pitrg ;t:

其中t为时间类型。最后我们计算wi的事件ti的可能性:ti=argmaxt(Pitrg ;t )
3.2.2 论元角色预测
在论元角色预测阶段,我们首先核查被预测的事件类型ti是否是other类型。如果是,我们简单设置aij为other的j=1到k然后马上进图下一个阶段。否则,我们循环实体提及e1,e2,……ek,每一个实体提及ej都有ij为头索引,我们使用如下过程关于触发词wi预测aij论元的角色。
首先我们生成特征表示向量Rargij for ej and wi连接以下向量:
hi和hij:隐藏层向量来各自获取输入句子的全局上下文。
Largij :ej和wi的本地上下文。Largij = [D[wi-d], … , D[wi], … , D[wi+d],D[wij-d], … , D[wij], . .D[wij+d]]
Bij:二元特征向量vij的隐藏层向量,Vij是标记i和ij之间的本地论元特征,Bij将Vij输入前馈神经网络Fbinary来进一步的抽象:Bij = F binary(Vij)

在下一步,我们再次使用前馈神经网络Farg(softmax层)最后转换Rijarg =[hi, hij, Larg ij , Bij, Garg i-1[j], Garg/trg i-1 [j]]到论元角色分布式概率Pij trg;a:P argij;a = Pij arg(l = a) = Faarg(Rij arg),其中a表示论元角色。最后wi的ej论元角色是aij= argmaxa(Pij arg ;a)
Vij向量丰富了特征表示Rij arg,因为在先前工作中论元被标注为具体的结构。那些特征包括最短路径依赖、实体类型、子类型等等。
3.2.3 内存向量/矩阵
EE中最重要的特征是触发词和论元角色在一个句子中存在的相互依赖的关系。在这工作中,我们编码依赖关系为内存向量/矩阵Gtrg i , Garg i andGarg/trgi (i = 0 to n),然后使用他们作为触发词和论元角色预测的特征(如表示向量Ritrg and Rij arg一样)。我们分类依赖依赖关系如下三个种类:
(1)触发类型之间的依赖:

我们使用结合小批量和adadelta更新规则的随机梯度下降方法,这个梯度使用后向传播。在训练期间,除了权重矩阵,我们优化了词语和实体类型嵌入表来获得最优状态。最后,我们重新调整权重其Frobenius标准超过了超参数。
4.词语表示
根据先前的研究工作(Nguyen and Grishman,2015b; Chen et al., 2015),我们预训练了大规模语料词向量然后使用他们初始化词向量表。训练词向量的方法有两种非线性的模型 CBOW和SKIP-GRAM.CBOW模型使用上下文平均值来预测现有词汇,而skip-gram使用当前词汇的预测周边词语。在此论文中,除了这两种方法,我们串联一种CBOW的变种方法C-CBOW来训练词向量。
5.实验
5.1 数据源、参数和数据
在以下实验中,在编码阶段,我们使用50维给实体类型词向量,在RNN中300维给词向量和300个单位隐藏层。
至于预测阶段,我们使用窗口为2的本地特征,前馈神经网络只有一个隐藏层Ftrg,Farg和Fbinary(隐藏层大小分别为600,600和300)
最后训练,我们使用最小批次为50,Frobenius norms 参数为3.
这些参数要么继承自先前的研究(Nguyen and Grishman, 2015b;Chen et al., 2015)或者根据有效数据设置。
我们使用English Gigaword进行word2vec词向量训练,使用C-CBOW模型。我们使用窗口为5的上下文,负样本词汇频率在1e-5到10之间。
我们使用ACE2005 语料为了比较,我们使用同样的数据,如先前工作一样切割数据。(Ji and Grishman, 2008;Liao and Grishman, 2010; Li et al., 2013; Nguyenand Grishman, 2015b; Chen et al., 2015)这份数据包括40篇新闻专线文章(672句)作为测试集,30分其他文档作开发集(836句)和529剩下的文档(14849句)作为训练集。
5.2 内存向量/矩阵
这一部分评估内存向量/矩阵的有效性。

5.3词向量评估
我们研究了采用各种方法进行事件联合模型的初始化词向量训练,下图展现了触发词和论元角色的表现。

7.结论
联合模型克服了先前模型的缺点。我们引入了内存矩阵。可以有效获取论元角色和触发词类型之间的依赖关系,我们验证了C-CBOW模型词向量计算有利于联合模型。未来,我们将应用该模型在KBP评估事件论元抽取任务,扩展到mention检测和关系抽取任务中。

你可能感兴趣的:(论文阅读)