实体识别与关系抽取

实体是知识图谱的基本单元,也是文中承载信息的重要语言,实体识别是识别出文中实体的命名性指称项
实体识别的主要难点在于:命名形式多变、命名实体的语言环境复杂
实体识别的方法:

基于规则的识别方法

特点:准确率高,接近人类的思考方式**,但成本昂贵规则的制定主要依赖领域专家**。

基于机器学习的识别方法-基于特征的方法

代表性方法有CRF方法

为训练CRF,首先定义特征函数集合,对于特征函数的定义可以考虑上下文词汇和词性特征。在CRG模型训练过程中,当定义好特征函数集合后就需要估计模型参数,根据训练集估计每个特征函数的权重,lambda,采用极大似然估计, 训练完CRG模型后使用 v i t e r b i viterbi viterbi算法,寻找网络中最大概率的路径来确定输出命名实体标记。

基于机器学习识别方法-神经网络捕获特征

一般步骤:特征表示,将文字符号特征表示为分布式特征信息。
模型训练:利用标注数据,优化网络参数,训练网咯模型。
模型分类,进而完成实体识别,经典模型是lample2016年提出的基于 L S T M + C R F LSTM+CRF LSTM+CRF的模型。

实体消歧

基于聚类的实体消歧方法,和基于实体连接的实体消歧方法,计算实体与实体,实体与文本,文本与文本之间的相似度都是核心问题。传统的方法主要利用自然语言处理来抽取词性,依存句法等特征。扩展性差表示能力不足,近年来,用深度学习方法缓解上述问题。

  • 基于神经网络的实体消歧方法,基于整篇文档作为输入,利用DNN通过预训练得到文档和实体的表示的微调,进而完成实体消歧。基于CNN的模型文本表示时使用词向量拼接了位置特征

关系抽取

关系抽取定义为两个或多个实体之间的联系,关系抽取都是自动识别实体之间的某种语义关系,根据数据源不同,关系抽取分为三类,

  • a:面向结构化文本的关系抽取。
  • 面向非结构化文本的抽取。
  • 面向半结构化文本抽取。

根据抽取范围不同

句子级别关系抽取。

语料或篇章级的关系抽取。

基于神经网络关系抽取的一般步骤是:

  • 特征表示:将纯文本的特征表示为分布式特征表示。
  • 神经网络的构建和高层特征表示。
  • 模型训练,利用标注数据优化网络参数。
  • 模型分类:利用训练的模型,对新样本进行分类,进而完成关系抽取。
    Zheng2014年用卷积神经网络的方式,提取特征包括词汇级别的特征和句子级别的特征。并将它们进行拼接,传统的有监督关系抽取的方法需要依赖人工标注的数据,限制了算法的使用领域。而带有标注的文本通常是稀缺资源,出现了距离监督的方法。Zeng给出了分段卷积神经网络构造,抽取文本的特征。由于Zeng只利用了包中一个句子信息,Lin,Ji等提出利用句子级别的关注机制来自动捕获不同句子的重要程度,自动获取有用的句子,过滤掉噪声句子,也有人在此基础上提出了利用更多背景知识来提升模型的性能。后面改进是首先是基于双向RNN,然后有人提出带有注意力机制的BLSTM网络模型(Att-BLSTM)解决基于CNN模型中不能捕捉长距离语义信息的不足的问题,以及双向RNN的梯度消失问题

经验

慢慢的将实体识别与关系识别大致了解以下,将其掌握透彻,研究深入。

你可能感兴趣的:(科大讯飞赛场,人工智能)