论文阅读:A Walk-based Model on Entity Graphs for Relation Extraction

A Walk-based Model on Entity Graphs for Relation Extraction(ACL 2018)

文章

  实体关系抽取是NLP中一个很常见的问题,如何在一句话中提取出实体以及它们之间的关系。本文提出了一种基于图的方法,首先将句子中的所有实体视作一个全连接图中的不同节点。而边则是每对entity pair的position-ware的context。
论文阅读:A Walk-based Model on Entity Graphs for Relation Extraction_第1张图片
  本文说一对entity pair之间的关系会被相同句子中的其它关系影响,比如上图,Toefting(person entity)通过with直接与teammates(person entity)产生关系,而teammates又通过with与capital(geopolitical entity)直接产生关系。而Toefting和capital又可以直接通过in或者间接通过teammates产生关系。也就是说Toefting-teammates-capital这条path对Toefting-capital的关系是有帮助的。
  本文提出的图中,每条edge由两个entity的representation和它们的context进行初始化,然后迭代地aggregate。
论文阅读:A Walk-based Model on Entity Graphs for Relation Extraction_第2张图片
  整个模型包含了:embedding layer,BLSTM layer,edge representation layer,walk aggregation layer和classification layer
  Embedding layer:首先会分别生成n_w,n_t和n_p维的向量来表示单词,语义类型,相对target pair的位置。比如在最开始的例子中teammates相对于capital位置为-3,相对于Toefting位置为+16.
  Bidirectional LSTM layer:单词的表示w会进入BLSTM然后输出考虑了序列信息的word-level的新表示h,对于每个单词,得到的新表示为维度为n_e的
公式
上式表示将BLSTM的两条方向的输出进行concat。
  Edge Representation Layer:BLSTM输出的单词表示会被进一步分为两部分,target pair representations和target pair-specific context representations。一个target pair的context即不在这对pair里的句中的所有其他单词。一个target pair由两个entity组成,e_i和e_j,假如一个entity由多个单词组成,则用这些单词的表示的平均值来表示该entity。一个pair entity的表示包括三部分其BLSTM出来的表示其语义类型的表示相对于另一个entity的位置。然后构建这对pair的context,对于每个context单词,它的表示包括四部分其BLSTM出来的表示其语义类型的表示相对于另外两个entity的位置。对于一个句子来说,所有pair的context可以表示为1个3维矩阵C,行列代表entity,深度则与words有关。但是对于每对pair的context,还需要利用attention机制,求出每个word的权重,将多个word的表示加权求和成单个表示。
论文阅读:A Walk-based Model on Entity Graphs for Relation Extraction_第3张图片
q是一个可以训练的attention vector,维度和每个context word表示的维度相同。最后将合并之后的context向量和两个entity向量concat然后经过一个全连接变换降维得到每条edge的表示。
  Walk Aggregation layer:这一层的目的是希望能为一对entity pair间存在的多条edge生成一个单一的representation来表示他们之间的关系。上一层得到的edge表示叫做one-length walk,会在此处用来生成和集成pair之间的one-to-L-length walks。该算法分为walk construction和walk aggregation。在construction中,两个连续的edge会通过如下变换结合:
在这里插入图片描述
结合前为one-to-λ,结合后则是one-to-2λ,但是并不是直接用这个新edge对原edge进行替换,而是:
在这里插入图片描述
  Classification layer:直接用全连接
在这里插入图片描述
  其实说白了还是在通过不断地迭代,对edge向量进行更新而已,每次更新会考虑到间接连接(A-B-C)。然后由于这种信息的扩散,随着迭代的次数越多,每条edge就会收到越来越丰富的context信息,从而帮助了识别。
  最后结果和当前state-of-the-art相差无几,启发意义大于实用意义
论文阅读:A Walk-based Model on Entity Graphs for Relation Extraction_第4张图片
可以看到当最大路径长度取4时,性能最好,与SP-Tree差不多。

你可能感兴趣的:(论文阅读:A Walk-based Model on Entity Graphs for Relation Extraction)