《知识图谱》阅读笔记(六)

6 关系抽取

不同的关系将独立的实体连接在一起编织成知识图谱。

6.1 任务概述

6.1.1 任务定义

关系定义为两个或多个实体之间的某种联系,关系抽取就是自动识别实体之间的某种语义关系。

根据参与实体的多少可以分为二元关系抽取和多元关系抽取,
其中二元关系是指两个实体间的关系,多元关系指的是三个及以上实体间的关系。

二元关系抽取是其他关系抽取研究的基础。

6.1.2 任务分类

根据处理数据源的不同,关系抽取可以分为以下三种:
(1)面向结构化文本的关系抽取
结构化文本包括表格数据、XML文档以及数据库数据等,这列数据通常具有良好的布局结构,因此抽取比较容易,可针对特定的网站编写特定模板进行抽取,抽取准确率也比较高。
(2)面向非结构化文本的关系抽取
非结构化文本指的就是纯文本。
但是,由于自然语言表达的多样性、灵活性,实体关系在文本总一般找不到明确的标识,这使得从中抽、识别语义 关系非常困难,需要自然语言处理技术的支持。
相对来说,从非结构化文本中抽取关系的准确率比较低。
(3)面向半结构化文本的关系抽取

根据抽文本的范围不同,可以分为:
(1)句子级关系抽取
(2)语料(篇章)级关系抽取

根据所抽取领域划分为:
(1)限定域关系抽取
(2)开放域关系抽取

6.1.3 任务定义

关系定义为两个或多个实体之间的某种联系,关系抽取就是自动识别实体之间的某种语义关系。

根据参与实体的多少可以分为二元关系抽取和多元关系抽取,
其中二元关系是指两个实体间的关系,多元关系指的是三个及以上实体间的关系。

二元关系抽取是其他关系抽取研究的基础。

6.1.4 相关评测

6.2 限定域关系抽取

6.2.1 基于模板的关系抽取方法

6.2.2 基于机器学习的关系抽取方法

6.2.2.1 有监督的关系抽取方法

  1. 基于特征工程的方法
  2. 基于核函数的方法
  3. 基于神经网络的方法

6.2.2.2 弱监督的关系抽取方法

6.3 开放域关系抽取

  1. 语料的自动生成和分类器训练
  2. 大规模关系三元组的抽取
  3. 关系三元组可信度计算

6.4 小结

你可能感兴趣的:(知识图谱,读书笔记)