实体识别与关系抽取

 

实体是知识图谱的基本单元,也是文中承载信息的重要语言,实体识别是识别出文中实体的命名性指称项。

  • 实体识别的主要难点在于(1)命名形式多变(2)命名实体的语言环境复杂。
  • 实体识别的方法:
  1. 基于规则的识别方法

特点:准确率高,接近人类的思考方式,但成本昂贵规则的制定主要依赖领域专家。

  1. A,基于机器学习的识别方法-基于特征的方法

代表性方法:CRF方法。

为训练CRF模型,首先定义特征函数集合,对于特征函数的定义可以考虑上下文词汇和词性特征,在CRF模型训练过程中,当定义好的特征函数集合后就需要估计模型的参数,根据训练集估计每个特征函数的权重,lambda,采用极大似然估计。训练完CRF模型后使用viterbi算法,寻找网络中最大概率的路径来确定输出的命名实体标记。

B,基于机器学习的识别方法-神经网络捕获特征。

一般步骤:(1)特征表示,将文字符号特征表示为分布式特征信息(2)模型训练:利用标注数据,优化网络参数,训练网络模型。(3)模型分类,进而完成实体识别。经典模型是lample2016年提出的基于LSTM+CRF的模型。

 

  • 实体消歧
  1. 基于聚类的实体消歧方法,和基于实体链接的实体消歧方法,计算实体与实体,实体与文本,文本与文本之间的相似度都是核心问题,传统的方法主要是利用自然语言处理工具来抽取词性,依存句法等特征,扩展性差表示能力不足。近年来用深度学习的方法缓解上述问题。
  2. 基于神经网络的实体消歧方法:基于整篇文档作为输入,利用DNN通过预训练得到文档和实体的表示的微调,进而完成实体消歧;基于CNN的模型文本表示时使用词向量拼接了位置特征。

 

  • 关系抽取

关系抽取定义为两个或多个实体之间的联系,关系抽取就是自动识别实体之间的某种语义关系。根据数据源的不同,关系抽取分为三类:a,面向结构化文本的关系抽取 b,面向非结构化文本的抽取c,面向半结构化的文本抽取;根据抽取的范围不同:a,关系抽取可以分为句子级别的关系抽取和语料或篇章级的关系抽取。

基于神经网络的关系抽取方法:一般步骤是:(1)特征表示,将纯文本的特征表示为分布式特征表示(2)神经网络的构建与高层特征表示(3)模型训练:利用标注数据优化网络参数(4)模型分类:利用训练的模型,对新样本进行分类,进而完成关系抽取。

Zeng,2014年用卷积神经网络的方式,提取的特征包括词汇级别的特征和句子级别的特征,并将它们进行拼接。传统的有监督关系抽取方法需要依赖人工标注的数据,限制了算法使用的领域,而带有标注的文本通常是稀缺的资源,出现了距离监督的方法。Zeng特出了分段卷积神经网络的构造,抽取文本的特征。由于Zeng只利用了包中一个句子信息,Lin,Ji等提出利用句子级别的关注机制来自动捕获不同句子的重要程度,自动获取有用的句子,过滤掉噪声句子,也有人在此基础上提出了利用更多背景知识来提升模型的性能。后面改进是首先是基于双向RNN,然后有人提出带有注意力机制的BLSTM网络模型(Att-BLSTM)解决基于CNN模型中不能捕捉长距离语义信息的不足的问题,以及双向RNN的梯度消失问题。

 

 

参考资料:

[1]Guilaume,Neural architectures for namede recognition,2016

[2]ZhengyanHe,et al,Learning entity represe ntation for entity disambiguation,2013

[3]YamingSun et al,Modeling mention,context and entity with neural networks for entity disambiguation,2015

[4]PengZhou et al,Attention-Based Bidirection-al Long Short-Term Memory Networks for Relation Classition

[5]HongZhao et al, Learning Deep Neural Networks and Knowledge Graphs for entity representation for entity disambiguation

[6]Guoliangji,et al,Distant Supervision for Relation Extraction with Sentence-level Attention and Entity Descriptions.

[7]Zeng,et al, Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks.

[8]Yankai,et al. Neural relation extraction with selective attention over instances.

 

 

 

 

 

 

你可能感兴趣的:(知识图谱)