实体关系抽取入门

引言:信息抽取(Information Extraction,IE)旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息。信息抽取的主要任务有:命名实体识别、实体关系抽取、事件抽取、实体消歧。关系抽取(Relation Extracion,RE)是其中的重要子任务之一,主要目的是从文本中识别实体并抽取实体之间的语义关系。实体关系抽取解决了原始文本中目标实体之间的关系分类问题,它也是构建复杂知识库系统的重要步骤,比如文本摘要、自动问答、机器翻译、搜索引擎、知识图谱等。随着近年来对信息抽取的兴起,实体关系抽取研究问题进一步得到广泛的关注和深入研究。

概念:实体关系抽取解决了原始文本中目标实体之间的关系分类问题,它也被广泛应用于文本摘要、自动问答系统、知识图谱、搜索引擎和机器翻译中。中文实体关系抽取由于中文句式和语法结构复杂,汉语有更多歧义,会影响关系分类的效果。

实体关系抽取是指从一个句子中抽取出关系三元组(entity1,relation,entity2),例如,‘’任正非在深圳创办了华为公司。‘’,其中任正非是实体1,华为是实体2,它们之间的关系是创办,那么抽取的三元组为(任正非,创办,华为)。

现在越来越多的研究把关系抽取做成分类任务处理,处理流程如下。

实体关系抽取入门_第1张图片

方法:现有主流的关系抽取技术分为有监督的学习方法、半监督的学习方、弱监督的学习方法和无监督的学习方法四种:

(1)有监督的学习方法将关系抽取任务当做分类问题,根据训练数据设计有效的特征,从而学习各种分类模型,然后使用训练好的分类器预测关系。该方法需要手工标记的训练语料,标注数据费时费力。有监督的实体关系抽取主要分为基于特征和基于核函数的方法。郭喜跃等人[5]提出用支持向量机(SVM)作为分类器,研究句法和语义特征对实体语义关系抽取的影响。

(2)半监督的学习方法主要采用Bootstrapping进行实体关系抽取。是一个能利用较少的标注语料获取到置信度较高的多量的标注语料的反复迭代的过程。Brin[16]利用 Bootstrapping 方法进行实体关系抽取。

(3)弱监督是一个总括性的术语,它涵盖了试图通过较弱的监督来构建预测模型的各种研究。Craven 等人[17]在研究从生物学文本中抽取结构化数据过程中首先建立了弱监督机器学习思想。

(4)无监督的学习方法利用有相同语义关系的实体对进行关系抽取。Hasegawa 等人[18]在ACL会议上首次提出了无监督的实体关系抽取方法。

最近,神经网络方法在关系抽取任务中逐渐流行起来。Socherz等人[6]提出使用递归神经网络(RNN)来解决实体关系抽取问题。该方法对句子进行了句法解析,能够有效地考虑句子的句法结构信息,但同时该方法无法很好地考虑两个实体在句子中的位置和语义信息。Zeng等人[7]提出利用词向量和词的位置向量作为卷积神经网络(CNN)的输入,引入了实体和其他词的距离信息,可以很好的把句子中实体的信息考虑到关系抽取中。随后,Santors等人[8]提出了一种新的损失函数的卷积神经网络(CNN),采用了新的损失函数,能够有效提高不同实体关系类型的区分度。Zeng等人[9]在远程监督上采用分段最大池化的卷积神经网络(CNN),通过分段最大池化层来自动学习相关特征。Lin等人[10]在远程监督上提出将卷积神经网络(CNN)和注意力机制(Attention Mechanism)结合起来使用,使用CNN作为句子编码器(Sentence Encoder),并使用句子级别的注意机制。Miwa等人[11]提出了一种端到端的双向树形结构的长短期记忆网络(Bi-TreeLSTM)的方法,通过该方法捕获词序列和依存关系树结构信息。孙等人[12]提出将双向长短期记忆网络(BiLSTM)和卷积神经网络(CNN)混合使用,并同时结合词性标记、实体类别、语法关系进行关系抽取。Katiyar 等人[13]在 2017 年首次将注意力机制 attention 与递归神经网络 Bi-LSTM 一起用于联合提取实体和分类关系。 Zhou等人[14]提出基于注意力(Attenion)的双向长短期记忆网络(BiLSTM)的方法,使用BiLSTM对句子建模,并使用词(word)级别的注意力机制。该方法仅使用基本的位置特征,并未使用NLP工具产生的任何额外特征,可以达到非常好的效果。谷歌团队[15]提出的模型Transformer中使用了自注意力(self Attention)和多头注意力(Multi-head Attention),该方法只用了注意力机制来处理各类NLP任务。神经网络模型在有监督领域的拓展皆取得不错效果。

实体关系抽取研究大多都是基于英文语料,基于中文语料的研究相对较少,而且由于中文语言的独特性和复杂性,所以对中文的研究远比英文困难

中文数据集:国外AEC05(这个数据集在官网下载不了,反正我没找到) ;国内COAE 2016 Task3(国内中文数据集很少,这个是16年新增加的任务)

英文数据集:SemEval2010 task 8(这个是全监督数据,用得人非常多)

评测标准:使用信息检索领域的评测标准,通常有准确率、召回率和F1值,其公式如下。
实体关系抽取入门_第2张图片

你可能感兴趣的:(自然语言处理)