【知识图谱 赵军 学习笔记】第六章 关系抽取

第六章 关系抽取

  • 任务概述
    • 任务分类
    • 任务难点
    • 相关测评
  • 限定域关系抽取
    • 基于模板的关系抽取方法
    • 基于机器学习的关系抽取方法
      • 有监督的关系抽取方法
        • 基于特征工程的方法
        • 基于核函数的方法
        • 基于神经网络的方法
  • 开放域关系抽取

任务概述

关系抽取是指自动识别实体之间具有的某种语义关系,可分为二元关系抽取和多元关系抽取,其对问答系统、智能客服、聊天机器人、语义搜索等应用十分重要

  • 二元关系抽取:是指两个实体间的关系,用 ( a r g 1 , r e l a t i o n , a r g 2 ) (arg1,relation ,arg2) (arg1,relation,arg2)表示
  • 多元关系抽取:是指三个及以上实体间的关系

任务分类

(1)根据处理数据源的不同,可分为:

  • 面向结构化文本的关系抽取:结构化文本包含表格数据、XML文档以及数据库数据等 ⇒ \Rightarrow 可根据特定模板进行抽取,准确率高
  • 面向非结构化文本的关系抽取:指纯文本上的实体抽取 ⇒ \Rightarrow 准确率低
  • 面向半结构化文本的关系抽取:需要对模板进行自动的学习

(2)根据抽取文本的范围不同,可分为:

  • 句子级关系抽取:也称为句子级关系分类,即从一个句子中判别两个实体间世何种语义关系
  • 语料(篇章)级关系抽取:旨在判别两个实体间是否具有某种语义关系,而不仅仅局限于两个目标实体所出现的上下文

(3)根据所抽取邻域的划分,可分为:

  • 限定域关系抽取:指在一个或多个限定的领域内对实体间的语义关系进行抽取
  • 开放域关系抽取:并不限定关系的类别

任务难点

  • 同一关系可以具有多种不同的词汇表示方法
  • 同一短语或词可能表达不同的关系
  • 同一对实体之间可能存在不止一种关系
  • 关系抽取不仅涉及到两个或两个以上的实体单元,还设计实体周围的上下文,需要利用文本中的一些结构化信息,使得问题复杂度指数级增长
  • 关系有时候在文本找那个找不到任何明确的标识,其隐含在文本中
  • 关系抽取一般依赖于词法、句法分析等基本的自然语言处理工具,但这些自然语言处理工具的性能不一定很高,从而引入错误,降低关系抽取系统的性能。

相关测评

  • MUC
  • ACE
  • TAC

限定域关系抽取

是指在一个或者多个限定的领域内判别文本中所出现的实体指称之间是何种语义关系,且待判别的语义关系是预定义的。

基于模板的关系抽取方法

通过人工编辑或者学习得到的模板对文本中的实体关系进行抽取和判别。当一个句子中所出现的实体指称的上下文文本满足模板时,就可以认为这两个实体指称之间在这个句子之中满足特定的实体关系
但这种问题具有两个问题:①如何学习用于抽取关系的模板?②如何将学习到的模板进行聚类?
⇒ \Rightarrow 采用自提升(Bootstrapping)方法
缺点:受限于模板的质量和覆盖度,可扩展性不强

基于机器学习的关系抽取方法

有监督的关系抽取方法

主要在于 如何抽取出表征实体指称间语义关系的有效特征
可分为:基于特征工程的方法、基于核函数的方法、基于神经网络的方法

基于特征工程的方法

特点:需要显式地将关系实例转换成分类器可以接受的特征向量
研究重点:怎样提取具有区分性的特征
分为三个步骤
① 特征提取:提取词汇、句法和语义等特征,然后有效地集成起来,从而产生描述关系实例的各种局部和全局特征
②模型训练:利用提取的特征训练分类模型
③关系抽取:利用训练好的模型对非结构化文本进行分类,进而完成关系抽取
常见的特征

  • 词汇特征
  • 实体属性特征
  • 重叠特征
  • 依存句法特征
  • 句法树特征

基于核函数的方法

不需要构造固有的特征向量空间,从而弥补了基于特征向量方法的不足
它直接以结构树为处理对象,在计算关系之间距离的时候不再使用特征向量的内积而是使用核函数
树核函数,再通过SVM/表决感知器

基于神经网络的方法

前两种方法的局限:
①上述特征的提取均依赖于自然语言处理工具,同时特征抽取的过程是一个串联的过程,前一步自然语言处理的结果是后一步的输入 ⇒ \Rightarrow 错误的累积和传递
②面对一些小语种,没有可用的自然语言处理工具时,上述方法不能使用

步骤
① 特征表示:将纯文本的特征表示为分布式特征信息,如将词表示为词向量
②神经网络的构建与高层特征学习:设计搭建神经网络模型并利用其将上一步得到的基本特征自动表示为高层特征
③模型训练
④模型分类:利用训练好的模型对新样本进行分类,完成关系抽取

开放域关系抽取

分为三个模块:
(1)语料的自动生成和分类器训练

  • 语料的自动生成
  • 分类器的训练

(2)大规模关系三元组的抽取
(3)关系三元组可信度计算

你可能感兴趣的:(知识图谱,赵军,学习笔记)