《知识图谱概念与技术》读书笔记:关系抽取

读完可以回答以下问题:

1. 什么是关系抽取

2.关系抽取的方法有哪些?

3.常用的关系抽取的数据集有哪些?

4.关系抽取的评估方法有哪些?

5.常用的关系抽取的评估指标是什么?

1.定义:关系抽取(Relation Extraction)就是抽取实体之间的关系实例,产生的结果是三元组<主体(Subject),谓词(Predicate),客体(Object)>。它是信息抽取的子任务之一,也是知识图谱构建最重要的的子任务之一。

2. 关系抽取的方法

《知识图谱概念与技术》读书笔记:关系抽取_第1张图片

3.关系抽取常用的数据集

一、人工构造的评测数据集

1.ACE2005数据集

      包括新闻和电子邮件文档559个和7个主要类型的关系,每个关系大约有700个实例。

2.SemEval-2010 Task 8数据集

     Hendrickx提供的免费数据集,包含1万多个句子

二、远程监督自动构造的评测数据集

1.NYT数据集

      通过对齐Freebase知识库和《纽约时报》语料库构建而得。包括53中关系和一种NA关系(Not Applicable,也就是预定义关系之外的关系)

      训练集包括522611个句子,281270个实体和18252个关系事实

      测试集包括172448个句子,96678个实体和1950个关系事实

      缺点:存在噪声,有效标注的样本规模有限,类别不平衡。

2.KBP数据集

4.关系抽取的评估方法

《知识图谱概念与技术》读书笔记:关系抽取_第2张图片

 

5.关系抽取的评估指标

        准确率,精确率,召回率,F1值和PR曲线(Precision-Recall曲线)

 

 

你可能感兴趣的:(自然语言处理,知识图谱)