公众号:数据挖掘与机器学习笔记
实体关系抽取:通过对文本信息建模,从文本中自动抽取实体对间的语义关系,提取出有效的语义关系
应用领域:信息抽取、自然语言理解、信息检索、机器翻译、语义网标注、知识图谱等
相关领域国际会议:ACL、EMNLP、ICLR、AAA、KDD、NAACL、ECML-PKDD等
实体关系抽取是指在实体识别的基础上,从非结构化文本中抽取预先定义的实体关系。实体对的关系可被形式化描述为关系三元组
有监督包括流水线和联合学习:
有监督深度学习方法能够解决经典方法中存在的人工特征选择、特征提取误差传播两大主要问题。研究主要集中在融合多种自然语言特征来提高识别精确度。
基本流程:针对已经标注好目标实体对的句子进行关系抽取,最后把存在实体关系的三元组作为预测结果输出。
流水线方法存在几个缺点:
联合学习方法能够利用实体和关系间紧密的交互信息,同时抽取实体并分类实体对的关系,很好地解决了流水线方法所存在的问题。
联合学习方法通过实体识别和关系分类联合模型,直接得到存在关系的实体三元组。根据建模的对象不同,联合学习方法又可以分为参数共享方法和序列标注方法:参数共享方法分别对实体和关系进行建模,而序列标注方法则是直接对实体-关系三元组进行建模。
在此方法中,实体识别子任务与关系抽取子任务通过共享联合模型的编码层来进行联合学习,通过共享层编码,在训练时,两个子任务都会通过后向传播算法更新编码层的共享参数,以此来实现两个子任务之间的相互依赖,最终找到全局任务的最佳参数,实现性能更佳的实体关系抽取系统。在联合学习模型中,输入的句子在通过共享的编码层后,在解码层会首先进行实体关系识别子任务,再利用实体识别的结果,并对存在关系的实体对进行关系分类,最终输出实体-关系三元组。
基于序列标注的实体关系抽取方法改善了流水线方法中存在的错误累积传播问题和忽视两个子任务间关系依赖的问题。但因其在训练时还是需要先进行命名实体识别子任务,再根据实体预测信息对实体进行两两匹配,最后进行关系分类子任务,因其在模型实现过程中分开完成了命名实体识别和关系分类两个子任务,仍然会产生没有关系的实体这种冗余信息。
Zheng 等人[55]在 2017 年提出了基于新的标注策略的实体关系抽取方法,把原来涉及到命名实体识别和关
系分类两个子任务的联合学习模型完全变成了一个序列标注问题.在该方法中,共包含 3 种标注信息:
该方法能使用序列标注的方法同时识别出实体和关系,避免了复杂的特征工程,通过一个端到端的神经网络模型直接得到实体-关系三元组,解决了基于参数共享的实体关系抽取方法可能会带来的实体冗余的问题.新序列标注方法的模型图如图6所示.在该端到端的神经网络模型中,对输入的句子,首先,编码层使用Bi-LSTM来进行编码;之后,解码层再使用 LSTM进行解码;最终,输出模型标注好的实体-关系三元组.另外,Zheng 等人[55]在这篇论文中还对该端到端模型增加了偏置损失函数,该函数增强了相关实体对之间的联系,削弱了无效实体标签的影响力,提高了关系分类的准确率;并基于这种新的标注方法,该论文中还学习用不同的端到端模型来解决关系抽取问题.
基于参数共享的方法可以改善流水线方法中存在的错误累积传播问题和忽视两个子任务间关系依赖的问题;基于序列标注的方法可以进一步解决冗余实体的问题。但这两种方法对于现今有监督领域存在的重叠实体关系识别问题,并未能给出相关的解决方案。
基于有监督学习的经典方法严重依赖于词性标注、句法解析等自然语言处理标注工具中提供的分类特征,而自然语言处理标注工具中往往存在大量错误,这些错误会在关系抽取系统中不断传播放大,最终影响关系抽取的效果.而基于深度学习的有监督方法可以在神经网络模型中自动学习特征,将低层特征进行组合,形成更加抽象的高层特征,用来寻找数据的分布式特征表示,能够避免人工特征选择等步骤,减少并改善特征抽取过程中的误差积累问题.
Mintz[14]于 2009 年首次提出将远程监督应用到关系抽取任务中,其通过数据自动对齐远程知识库来解决开放域中大量无标签数据自动标注的问题.远程监督标注数据时主要有两个问题:噪声和特征提取误差传播.
噪声问题是由于远程监督的强假设条件,导致大量数据的关系被错误标记,使得训练数据存在大量噪声;而特征提取中的误差传播问题是由于传统的特征提取主要是利用 NLP 工具进行数据集的特征提取,因此会引入大量
的传播误差…针对错误标签问题,Surdeanu[8]于 2010 年提出的多示例多标签学习方法、Lin[10]于 2016 年提出的Attention 机制,都有效减弱了远程监督错误标签对抽取性能的影响.而自从深度学习的崛起和其在有监督领域取得良好的关系抽取效果后,用深度学习提取特征的思路来替代特征工程是一个非常自然的想法:用词向量、位置向量来表示句子中的实体和其他词语;用深度模型对句子建模,构建句子向量;最后进行关系分类.深度学习模型及其特点有:CNN 的扩展模型 PCNN+MIL[37]、PCNN+ATT[10](Attention 机制作为多示例机制的一种泛化)弱化错误标签问题;LSTM[57]获取实体对方向性信息;COTYPE[39]联合抽取实体和关系信息;深度残差网络[40]防止错误标签噪声的逐层累积.基于远程监督实体关系抽取框架的演化流程如图 7 所示.
远程监督的提出,是因为在开放域中存在大量无规则非结构化数据,人工标注虽能使标注的准确率较高,但是时间和人力消耗巨大,在面对大量数据集时显得不切实际.因此,远程监督实现一种数据集自动对齐远程知识库进行关系提取的方法,可进行自动标注数据.但由于其强假设条件造成大量错误标签问题,之后,经典的远程监督的改进都是在改进处理错误标签的算法.
深度学习的提出,是因数据特征构造过程依赖于 NER 等 NLP 工具,中间过程出错会造成错误传播问题.且现今基于深度学习的远程监督实体关系抽取框架已包含经典方法中对错误标签的探讨解决,因此可以认为现今的远程监督关系抽取框架是基于传统方法的扩展优化.
基于深度学习的远程监督实体关系抽取研究点主要集中在远程监督的噪声问题和特征提取的误差
传播两方面
用作深度学习关系抽取实验评估的标准数据集主要有 SemEval-2010 Task 8 公开数据集、ACE2004实验语料、NYT-FB 数据集等
用作深度学习关系抽取实验评估的标准数据集主要有 SemEval-2010 Task 8 公开数据集、ACE2004实验语料、NYT-FB 数据集等
有监督领域的实体关系抽取主要采用 MUC 关系抽取任务数据集、ACE04、ACE05、SemEval-2010 Task 8公开数据集,部分论文采用 MPQA 2.0 语料库和 BioNLP-ST 2016 的 BB 任务数据集.有监督方面评测标准主要以 F1 值来统计.
MUC 关系抽取任务数据集:MUC-7 包含五大评测任务:命名实体识别、指代消解、模版元素填充、模版关系确定和场景模版填充.其中,关系抽取首次作为一个独立的评测任务被提出来.MUC-7 的数据语料主要是取自新闻语料,主要是飞机失事事件报道和航天器发射事件报道.MUC 会议停开以后, ACE会议也将关系抽取任务作为会议的一个子任务;
ACE 关系抽取任务数据集:ACE 会议从 2002 年~2007 年一直将关系抽取任务作为一个子任务,其中获得广泛认可的ACE04/ACE05.其中,ACE04语料库来源于语言数据联盟(linguistic data consortium,简称 LDC),分成广播新闻(BNEWS)和新闻专线(NWIRE)两个部分,总共包含 451 个文档和 5 702 个关系实例.ACE04 提供了丰富的标注信息,从而为信息抽取中的实体识别、指代消解和关系抽取凳子任务提供基准(benchmark)的训练和测试语料库.而 ACE05 作为 ACE04 的扩充,对 ACE04 数据集进行了适当的修改与完善;
SemEval-2010 Task 8 数据集:SemEval 是由 Senseval 演变而来的语义评测.Senseval 是由ACL-SIGLEX组织的国际权威的词义消歧评测,但由于 Senseval 中除词义消歧外有关语义分析的任务越来越多,之后,Senseval 委员会决定把评测名称改为国际语义评测(SemEval).SemEval-2010 Task 8 数据集是 2010年 SemEval 语义评测的子任务,构建于 2009年,此任务用于名词间多种语义关系的分类.数据集根据预设定的 9 种互不相容关系从各大数据源收集而来,数据源包括WordNet,Wikipedia data,Google n-grams等.数据集共包含 10 717 条数据,其中,训练集有 8 000 条,测试集有 2 717 条.数据集中 9 种关系,分别为:Cause-Effect(因果关系),Instrument-Agency(操作、使用关系),Product-Producer(产品-生产者关系 ),Content-Container( 空间包含关系 ),Entity-Origin( 起源关系 ),Entity-Destination( 导向关系 ),Component-Whole(组件-整体关系),Member-Collection(成员-集合关系),Message-Topic(主题关系).每条数据是一个包含实体对的句子,类别标签为实体对在该句中表现出的关系;
MPQA 2.0 语料库:包含来自各种新闻源的新闻文章和社论,数据集中共有 482 个文档,包含 9 471 个带有短语级别注释的句子.数据集中包含观点实体的黄金标准注释,如观点表达、观点目标和观点持有者;还包含观点关系的注释,如观点持有者和观点表达之间的 IS-FROM 关系、观点目标和观点表达之间的 IS-ABOUT 关系;
BioNLP-ST 2016 的 BB 任务:此任务是针对细菌/位置实体抽取和两者间 Lives_In 关系抽取而设立的一个标准竞赛,数据集由来自 PubMed 的 161 个科学论文摘要组成,数据集中包含 3 种类型的实体:细菌、栖息地和地理位置;包含一种关系:Lives_In,指由细菌-栖息地构成的 Lives_In 关系或由细菌-地理位置构成的 Lives_In 关系.
(2)远程监督领域
远程监督领域的实体关系抽取主要采用NYT-FB数据集.这个数据集是由Freebase知识库对其纽约时报的文本获得的数据集.训练数据为知识库对其 2005 年、2006 年文本获得的,测试库数据为知识库对其 2007 年文本获得的.NYT-FB 数据集中共有 53 种关系,共计 695 059 条数据(其中训练集包含 522 611 条训练语句,训练数据中有近 80%的句子的标签为 NA,测试集包含 172 448 条测试语句),通过结合 FreeBase 对 NYT 语料做实体链接、关系对齐等操作进行标注,最终得到一个被广泛使用的关系抽取数据集.
表 5 中,序号 1~序号 15 是有监督领域实体关系抽取的典型模型与其相关信息介绍,序号 16~序号 25 是远
程监督领域实体关系抽取的典型模型与其相关信息介绍.其中,1~10 是有监督领域中流水线类别的模型,序号
11~序号 15 是有监督领域的联合学习类别的模型.
参考文章:
【1】深度学习实体关系抽取研究综述