信息抽取

信息抽取

一,信息抽取概述

信息抽取定义:从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。

信息抽取的主要任务有:

  • 实体识别与抽取
  • 实体消歧
  • 关系抽取
  • 事件抽取

二,实体识别与抽取

1,实体识别

任务:识别出待处理文本中七类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。

两个子任务:实体边界识别和确定实体类型。

特点

  • 人名、地名、机构名的识别难度较大。
  • 内部结构复杂,形式多变。
  • 上下文密切相关。
  • 考虑到每一类命名实体都具有不同的特征,不同类别的实体适合用不同的识别模型 。
    1. 人名:用基于字的模型描述其内部结构。
    2. 地名:用基于词的模型描述。

方法:

  • MEMM、HMM和CRF。
  • 基于深度学习的分词和命名实体识别。

2,开放域实体抽取

任务:给定某一类别的实体实例,从网页中抽取同一类别其他实体实例。

基本思路:种子词与目标词在网页中具有相同或者类似的上下文。

方法一般分为模板抽取和实例候选置信度计算两个模块,两部分迭代进行,相互依赖。以无监督的方法为主。

三,实体消歧

实体消歧:确定一个实体指称所指向的真实世界实体,就是命名实体消歧。

实体消歧分类

  • 基于聚类的实体消歧

    1. 把所有的实体指称项按其指向的目标实体进行聚类。
    2. 每一个实体指称项对应到一个单独的类别。
  • 基于实体链接的实体消歧

    将实体指称项与目标实体列表中对应实体进行链接实现消歧。

1,基于聚类的实体消歧

基本思路:同一指称项具有近似的上下文,利用聚类算法进行消歧。

核心问题:选取何种特征对指称项进行表示。

  • 词袋模型

  • 语义特征

  • 社会化网络

  • 维基百科的知识

  • 多源异构语义知识融合

    例如:

    • Wikipedia:可以用来捕捉概念之间的语义关联。
    • WordNet:用于捕捉词语之间的语言学关联。
    • Web网页库:用于捕捉命名实体之间的社会化关联。

总结:主要研究集中在实体指称项的语义表示,已有工作大多都是通过扩展特征,增加更多的知识来提高消歧精度。

2,基于链接的实体消歧

任务:给定实体指称项和它所在的文本,将其链接到给定知识库中的相应实体上。

信息抽取_第1张图片

主要步骤:

  • 候选实体的发现

    方法:

    • 利用Wikipedia的信息
      1. 利用Wikipedia中锚文本的超级链接关系
      2. 利用Wikipedia中的消歧页面
      3. 利用Wikipedia中的重定向页面
    • 利用上下文信息
  • 候选实体的链接

    • 基本方法:计算实体指称项和候选实体的相似度,选择相似度最大的候选实体。

    • 单一实体链接

      1. 使用BOW模型计算相似度
      2. 加入候选实体的类别特征
      3. 加入候选实体的流行度等特征
    • 协同实体链接:不仅考虑实体指称项与目标实体之间的语义相似度,也要考虑目标实体之间的语义相似度。目标实体之间的语义相似度计算方法:

      1. 利用实体类别重合度计算
      2. 利用实体之间链接关系计算
      3. 基于图的协同链接
      4. 基于深度学习的实体链接方法

总结

  • 目前实体链接方法主要是如何更有效挖掘实体指称项信息,如何更准确地计算实体指称项和实体概念之间的相似度。
  • 由单一实体链接向协同实体链接发展。
  • 难点:未登录实体的处理。

四,关系抽取和发现

五,事件抽取

六,问题与挑战

你可能感兴趣的:(自然语言处理)