【联合抽取】Entity-Relation Extraction as Multi-turn Question Answering(ACL2019)

  • 问题序列(Query)能对重要的信息更好地编码;
  • QA能作为一个很自然的途径来联合实体和关系进行抽取;
  • 很好地利用MRC模型

本文使用地实验数据集:ACE04、ACE05、CoNLL04,在这三个语料集上,模型提升了49.4 (+1.0)、
60.2 (+0.6) 、 68.9 (+1.1)。另外新开发了中文数据集RESUME,该数据集需要多轮推断来组织实体之间地依赖,本文模型在该数据集上也有很好的效果。



【联合抽取】Entity-Relation Extraction as Multi-turn Question Answering(ACL2019)_第1张图片

上述例子中要提取四种不同的实体类型(Person, Company, Time 和 Position)、三种不同的关系类型(FOUND、FOUNDING-TIME 、 SERVING-ROLE),最后转换成结构的数据如Table 1。


  1. Formalization Level:**关系三元组不能充分地表达结构化数据。**以上述例子为例,在不同地tags之间有一定的层次依赖:
  • Time 和 Position:一个Person会在不同时期,在同一家公司担任不同的职位
  • Position 和 Company:一个Person也是可以在不同的Company就职。
  1. Algorithm Level:现有的SOTA方法123很难从文本中捕捉到词法(lexical)、语义(semantic)和句法(syntatic)特征,特别是碰到以下情况:
  • 实体距离金鳌园
  • 一个实体在多个三元组中出现
  • relation span and overlap (in text A B C D, (A, C) is a pair and (B, D) is a pair.)


【联合抽取】Entity-Relation Extraction as Multi-turn Question Answering(ACL2019)_第2张图片


  1. 更好地解决了层次依赖问题,这就有点像使用槽填充(slot-filling)的对话系统89.
  2. 问题序列更好地编码重要信息,解决了远程监督中实体对和关系范围重叠(span overlap)问题
  3. QA任务能够同时抽取实体和关系、MRC模型支持输出None类型的答案,那么就很自然地:如果一个问题返回了对应的答案,那么就是存在关系;如果没有,则是None类型。

为什么要创建新的数据集RESUME? 因为,ACE等数据集是为了关系三元组设计的,其中的关系最多经过两轮的QA就被抽取出来了。

Related Work

这部分重点讲一下MRC任务,主流MRC模型的答案都是从给定的文本中寻求答案。Text span extraction可以简化为两个多分类任务,如预测答案的开始和答案的末尾。一般的MRC策略可以扩展到多篇章的MRC任务,多篇章MRC又可以通过拼接段变成单篇章的MRC任务:首先对篇章进行排序,然后在选中的篇章上做MRC。


Datasets and Tasks

首先就介绍了ACE04、ACE05、CoNLL04这几个数据集,然后分好类的数据集可以从https://github.com/tticoin/LSTM-ER/ 获得。但以上数据集是为了进行关系抽取而建立,最多两轮QA就可以将他们的信息抽取出来,并且没有层次化的实体关系。


【联合抽取】Entity-Relation Extraction as Multi-turn Question Answering(ACL2019)_第3张图片



System Overview


【联合抽取】Entity-Relation Extraction as Multi-turn Question Answering(ACL2019)_第4张图片


  1. 头实体抽取(4-9行)


  2. 尾实体和关系抽取(10-24行)



Generating Questions using Templates


  1. natural language questions
    例子:对于Facility 类型,生成的问题可能是:Which facility is mentioned in the text
  2. pseudo-question
    例子:对于Facility类型,生成的可能只是:entity: facility


【联合抽取】Entity-Relation Extraction as Multi-turn Question Answering(ACL2019)_第5张图片

Extracting Answer Spans via MRC

许多MRC模型都已经被提出,如BiDAF12、QANet13。对于QA框架,我们使用BERT作为支撑。为了和BERT框架一致性,将Q和上下文C拼接到一个list: [CLS, Q, SEP, C, SEP]。

传统的MRC模型1415,通过在上下文上使用两个softmax层,来预测开始和结束位置的索引,但这种方式只适合简单回答抽取任务。但本文的设定是,一个句子或者段落可能会有多轮的回答。为了克服这样的问题,我们将任务看成一个 query-based的标注问题161718,在文本给定的序列的每个字,预测一个BMEO(beginning, inside, ending and outside)标签,这个标签是字表示通过一个softmax层后输出的。一方面可以认为是我们转化成了两个进行预测开始和结束位置的N分类问题(N表示句子长度)。


L = ( 1 − λ ) L ( h e a d e n t i t y ) + λ L ( t a i l e n t i t y , r e l ) \mathcal{L} = (1 - \lambda) \mathcal{L}(head entity) + \lambda \mathcal{L}(tail entity,rel) L=(1λ)L(headentity)+λL(tailentity,rel)

Reinforcement Learning


  1. Action 和 Policy
    在多轮QA中,Action就是在每一轮文本的范围;Policy则是定义选择给定问题和上下文所确定的范围的概率。但由于依赖上述BMEO标记输出,选择确定的范围 { w 1 , w 2 , … , w n } \{w_1,w_2,\dots,w_n\} {w1,w2,,wn} w 1 w_1 w1属于B的联合概率; w 2 , w 3 , … , w n − 1 w_2,w_3,\dots,w_{n-1} w2,w3,,wn1属于M的联合概率; w n w_n wn属于E的联合概率分布:

p ( y ( w 1 , … , w n ) = a n s w e r ∣ q u e s t i o n , s ) = p ( w 1 = B ) × p ( w n = E ) ∏ i ∈ [ 2 , n − 1 ] p ( w i = M ) p(y(w_1,\dots,w_n)=answer|question,s) = p(w_1=B) \times p(w_n=E) \prod_{i \in [2,n-1]} p(w_i=M) p(y(w1,,wn)=answerquestion,s)=p(w1=B)×p(wn=E)i[2,n1]p(wi=M)

  1. Reward
    对于句子s,我们使用正确检索三元组的数量作为奖励。使用REINFORCE 算法22,一种策略梯度方法来找到最优策略和找到最大化的奖励函数。策略和梯度的计算如下公式:

▽ E ( θ ) ≈ [ R ( w ) − b ] ▽ l o g π ( y ( w ) ∣ q u e s t i o n s ) \bigtriangledown E(\theta) \approx [R(w)-b] \bigtriangledown log \pi (y(w)|question s) E(θ)[R(w)b]logπ(y(w)questions)
其中b表示基线的值,每轮QA,正确回答则奖励+1,最后的奖励是多轮累积的结果。这个基线值是所有前面的奖励的平均。并且不初始化策略网络,而是使用预训练的头尾实体抽取模型来描述之前的部分。同时我们也使用了 experience replay strategy23:对于每个batch,一半的样本用于模拟,另一半从之前生成的样本随机生成。
对于RESUME语料,我们还采用了curriculum learning24,我们从2到4逐步提升训练的轮数。

Experimental Results


【联合抽取】Entity-Relation Extraction as Multi-turn Question Answering(ACL2019)_第6张图片

【联合抽取】Entity-Relation Extraction as Multi-turn Question Answering(ACL2019)_第7张图片

