WWW 2017|知识库支持下的归类实体与关系联合抽取

实体以及它们之间关系的抽取对于理解海量文本语料库来说是非常重要的。传统的实体关系抽取系统都依赖于人工标注的训练语料并采用了增量式的处理管道。这样的系统在面对新的领域语料时需要额外的人类专家进行标注,而且在管道框架中上游模块产生的错误容易累积影响下游模块的效果。因此,本文提出了一种利用知识库启发式获取标注数据的实体与关系联合抽取框架。

论文地址:

https://arxiv.org/pdf/1610.08763.pdf

论文代码:

https://github.com/INK-USC/DS-RelationExtraction

引言

识别出文本中的实体并对其进行归类,与此同时标记实体间的关系是从文本语料中提取结构化信息的关键。传统的信息抽取系统倾向于把整个流程切分成数个子任务,如从文中发现实体,标注实体类型,然后抽取它们之间的关系。这样的系统会独立处理每个子任务,所以上游任务有可能把产生的错误传导到下游任务中。此外,在联合抽取任务中的一大挑战就是如何设计一个与领域无关的系统以应对不同领域内缺乏人工标注的数据集。当前大量出现的各种特定领域的文本语料库急需能在仅有少量或没有人工标注监督的情况下进行联合抽取的方法。

图 1:知识库支持下的信息抽取

本论文中,作者为了解决上述问题,提出了“知识库支持下的归类实体与关系联合抽取”,即简称为“COTYPE”,主要贡献在于以下四个方面:

1.提出一种新型的远程监督框架---COTYPE,用于在特定领域语料库中最小化使用语言学假设的情况下抽取实体以及相关关系,具体如下图2:

图 2:COTYPE框架总览

2.设计了一个与领域无关的文本分割算法用于识别实体条目(Entity Mention);

3.设计了一个抗噪声的联合嵌入目标函数来对条目之间的关系,条目-文本特征之间的共现,以及实体-关系间的交叉约束进行建模;

4.在三个公共数据集上的实验表明COTYPE显著地提升了SOTA在实体归类以及关系抽取的表现,展示了其领域无关性。

数据集

本论文采用NYT、Wiki-KBP和BioInfer作为数据集,数据集特性如下表1:

表 1: Dataset Statistics

表 1: Dataset Statistics

1.NYT:训练语料包括从1987至2007年见纽约时报(New York Times)大概294k篇新闻中抽取的1.18M个句子。此外有395个句子由人工标注用作测试数据。

2.Wiki-KBP:从大约780k篇维基百科文章中抽取的1.5M个句子用作训练集,此外有14k条人工标注的数据用作测试集。

3.BioInfer:包含1530段手工标注的生物医学论文摘要充当的测试数据,以及100k段从PubMed论文中抽取的摘要充当训练数据。

COTYPE框架

本文提出了一个结合远程监督的基于嵌入的框架,概要介绍参考图2:

1.利用知识库中的正样例,在带有POS信息的语料库D中运行POS约束下的文本分割算法,识别出候选实体条目集M。我们把这一阶段命名为实体条目识别(Entity Mention Detection)。传统的实体识别系统依靠一系列语言学特征(如句子依存分析)来训练一个序列标注模型。但是这种方法在远程监督生成的自动标注数据库中使用显然是不合适的,因为远程监督生成的数据中仅有相当小的一部分被标注为正样例,大量实体未得到标注。因此一个与领域无关的文本分割算法用于定位实体是很有必要的。本文的思路是通过挖掘固定长度的word sequence和POS tag sequence,结合语料库级别的特征和句子级别的词汇信息来训练两个随机森林分类器,分别评估候选word sequence以及候选POS tag sequence的质量,再加权得到当前分割状态的得分。

然后通过最大化“联合切分得分”(Joint Segmentation Quality)来找到整个输入文本最合适的切分方法。“联合切分得分”的表达式为:,其中代表着当前切分(在文本中起始位置为结束位置为的word sequence)

2.从M中生成候选关系条目集Z,对其中每个关系条目以及对应的实体条目参数抽取文本特征。然后利用远程监督生成标注数据集。本框架利用的文本特征如下表:

表 2: 本文所用文本特征,参考输入句子“Honolulu native Barack Obama was elected President of the United States on March 20 in 2008.”

3.联合对关系、实体、文本特征和类型标签进行嵌入计算,将其嵌入到2个低维空间中(分别对应实体与关系)。在这些低维空间中,相近的元素一般共享着同样的类型。这一切都基于三个假设。假设1(Mention-Feature Co-occurrence):当两个实体条目拥有较多共同的文本特征时,它们倾向于属于同一个类型(在低维空间中相近),反之亦然。假设2(Partial-Label Association):一个关系条目的嵌入向量应该与跟它最相关的候选类型,比其它不相关的候选类型更接近。假设3(Entity-Relation Interaction):对于一个关系条目,的嵌入向量应该与的嵌入向量以及关系的嵌入向量和相近。基于这三个假设,本文提出了3个不同的建模目标函数。第一个是关系类型建模:

其中是语料库级别的损失,是句子级别的损失。第二个是实体类型建模,与关系类型建模类似:

第三个是联合模型:

其中,是负采样集合。最终的优化目标函数为:

整个训练算法如下:

4.通过最邻查找在学习得来的嵌入向量中对每个关系条目测试样例预测类型标签,以及对每个实体条目测试样例预测类型路径}Y∗。

实验结果

作者在NYT,Wiki-KBP,BioInfer三个数据集上分别做了实体检测、关系抽取、end-to-end关系抽取的对比实验,都有比较大的提升。

表 3:实体识别与归类对比实验

表 4:关系分类对比实验(Accuracy)

表 5:端到端关系抽取对比实验

结论

本文利用Distant Supervision和Weakly Supervision实现了一个对文本中的实体与关系联合抽取的框架,整个过程中极大地减少了人工标注成本,同时具备很强的领域迁移性。端到端的抽取降低了错误随管道流转的可能性。唯一值得诟病的可能是其中的text feature是涉及到了人为设计的方面,后续的改进应该会使用深度神经网络代替这种人为的特征工程。

扫码识别关注,获取更多新鲜论文解读

你可能感兴趣的:(WWW 2017|知识库支持下的归类实体与关系联合抽取)