CoType: Joint Extraction of Typed Entities and Relations with Knowledge Bases
文章综述
本文主要解决在远程监督的过程中面临的三大挑战:需要事先训练的命名实体抽取器限制了领域的扩展;讲实体抽取和关系抽取分开导致错误的传递累计、在远程监督当中面临的标签噪声问题(远程监督假设失效问题)。本文通过利用实体和关系的联合抽取来解决这些挑战。本文的贡献主要有以下四部分:
- 提出了一个远程监督模型COTYPE
- 提出了一个领域无关的文本分割算法用于抽取实体
- 提出了一个联合嵌入的代价函数融合mention-type association, mention-feature co-occurrence, entity-relation cross-constraints
- 实验提升了state-of-the-art的效果
问题描述
输入:词性标注语料、知识库、一个层级实体类别集合、关系类别集合
Entity and Relation Mention
entity mention: a token span in text which represents an entity.(m)
relation mention: represent a relation mention with entity mentions m1 and m2 in sentence s.(m1,m2,s)
自动标注
对于训练语料进行自动标注工作,选择在语料中可以映射到知识库当中的entity mention,为每一个关系实例(在同一个句子当中出现的两个entity mention)构造一个元组表示
其中,z为两个entity mention和句子组成,R为两个实体对应的所有关系组成的集合,两个Y分别为两个entity mention各自对应的所有实体类别的集合
模型情况
联合抽取模型主要有两个挑战
- Entity Mention和relation mention和知识库当中的关系类型的对应是上下文无关的,即这些对应关系可能包括错误的类型(比如奥巴马和美国,可以表示总统关系或者出生于关系)
- relation mention和它前后实体类别的依赖关系需要利用
整个模型如图所示(图太长,分两张图显示)
整个模型分为四部分
- 在训练语料上运行基于POS的文本切割算法,得到候选entity mention
- 生成relation mention,构造其元组表示
- 将两个mention以及文本特征、实体类别标签全部嵌入两个空间之中(实体和关系分别构建一个空间)
- 利用嵌入的空间预测正确的关系对应
注意:这里需要注意的是,在整个算法运行之前,会首先从语料D当中抽取一部分entity mention,在论文当中,作者利用的是Dbpedia
spotlight,使用这个作为初始的监督,用 DL表示
两个Mention的抽取和表示
本部分共分为三个部分:entity mention的抽取、relation mention的抽取、文本特征抽取
这一部分主要是文献Mining quality phrases from massive text corpora(SIGMOD 2015)的扩展
通过计算切片质量函数来衡量这个片段是否有多大可能是一个entity mention,这个质量函数由短语质量和POS质量组合而成,利用DL当中的数据来估计这个函数的参数
工作流程如下
- 对于DL中的样例,挖掘他们的频繁共同模板,包括词性模版和词性模版
- 从语料级别的一致性和句子级别的词性特征抽取特征训练两个随机森林分类器,用于评估候选的短语模板和词性模板
- 找到切片质量函数得分最高的片段
- 计算修正特征,不断迭代2-4步知道收敛
切片评估函数的形式为
第一项为切片长度的先验概率,第二项为给定切片长度是一个好的切片的概率(需要估计),第三项为质量函数,在本文中,质量函数为短语质量和POS质量的平均相加
对于在同一句话的两个entity mention,构建两个关系实例(m1,m2,s)和(m2,m1,s),如果远程监督可以使用,那么直接构造,再抽取30%的无法连接到知识库的mention作为负例
主要特征如下
实体关系联合嵌入
本文提出了一个新的代价函数,扩展基于边界的损失函数用于建模噪声mention-type链接;利用二阶逼近思想建模mention-feature共现;利用基于翻译的损失函数构建entity-relation依赖信息
在此阶段建模中,考虑mention-type链接和mention-feature共现这两部分监督信息
- 假设一:对于两个entity mention,如果她们共享很多的文本特征,那么它们更可能具有相似的类别(在低维空间更接近),反之亦然
假设一可以形式化为
这里利用了一种second-order proximity的方法,源于Large-scale information network embedding(WWW 2015)
现有的低维嵌入主要基于两种假设有两种不同的方法,第一个假设是局部一致性假设,即两个对象紧密相连那么它们越相似,第二个是分布式假设,即共享相似邻居的对象更加相似。然而,在本文当中,一个relation mention是对应多个可能的关系类型候选,那么一些mention-type的连接可能是错误的,采用上述的两种假设,可能会产生不同关系类型的mention具有相似的低维向量表示。
因此,我们想把relation mention和它候选的标签的连接是否是真的加入到两个对象关联的一部分。为了这一想法,我们建模每一个relation mention和它的噪声候选标签,按照假设二
- 假设二:一个relation mention在低维空间应该同他最可能的候选类别更加近
根据这一假设,我们假定r为一个d维向量,代表关系类别在低维空间的表示,那么z和r的相似程度通过点积的方式呈现,我们拓展最大边界损失用来对每一个relation mention定义一个类别损失
通过最小化损失来得到最优
后面的公式也同relation mention的建模过程一样
关系和实体之间有着多种交互关系,其中最为主要的一种是相互依赖的关系,即两个entity mention的类别对于relation mention的类别有一定的提示作用,反之亦然。
假设三:对于一个relation mention z={m1,m2,s},m1的嵌入向量应该近似于m2的嵌入向量加上z的词嵌入向量
这一假设类似于表示学习的思想。基于这个假设,损失函数可以形式化表示为
这个损失函数的目的非常明显,对于训练样例当中的正例的翻译错误小于负例
将上述三个损失函数相加,求它们的最小值
模型学习和推断
在进行推断的过程中,对于关系类别,采用最近邻的方式查找,对于实体的类别,采用自顶向下的方式查找。在查找的过程中,利用特征来表示mention,计算mention的嵌入向量同实体类别和关系类别的相似度