知识图谱之知识抽取

1、知识抽取概述

知识抽取是知识图谱构建的核心技术之一,是实现自动化构建大规模知识图谱的重要技术。其目的主要从不同来源、不同结构的数据中进行知识提取并存入知识图谱中。

知识图谱之知识抽取_第1张图片

 

2、知识抽取任务

知识抽取任务主要包括以下三个关键子任务:实体抽取、关系抽取和事件抽取。

知识抽取数据源可以是结构化数据、半结构化数据或者非结构化数据。面向不同类型的数据源、知识抽取涉及的关键技术和需要解决的技术难点有所不同。

知识抽取主要包含序列标注任务和结构化知识生成任务两种。下面主要介绍结构化知识生成。

2.1 半结构化知识抽取

百科知识抽取详情请参看

知识图谱构建概述_jinhao_2008的博客-CSDN博客中典型的知识体系章节

2.2 非结构化文本知识抽取

        大量的数据以非结构化数据的形式存在,如新闻报道、科技文献和政府文件等,面向文本数据的知识抽取在工业界和学术界一直是广受关注的问题。下面主要对非结构化文本数据的实体抽取、关系抽取和事件抽取。

 a)、实体抽取:又名命名实体识别,从文本中检测出命名实体,并将其分类到预定义的类别中,例如人物、组织、地点、时间等。实体抽取是解决很多自然语言处理问题的基础,也是知识抽取中最基本的任务。想要从文本中进行实体抽取,首先需要从文本中识别和定位实体,然后再将识别的实体分类到预定义的类别中。总体上可以将现有实体抽取方法分为基于规则的方法,基于统计模型的方法和基于深度学习的方法。

知识图谱之知识抽取_第2张图片

方法优缺点对比

方法 优点 缺点
规则 准确率高,接近人的思考 成本昂贵,很难移植到新领域
机器学习方法 算法更加健壮和灵活,比较客观,不需要太多人工干预和领域知识 依赖人工设计特征
深度学习方法 算法更加健壮和灵活,比较客观,不需要太多人工干预和领域知识 需要人工标注数据,数据稀疏问题比较严重
生成式方法 时序解码,效率低

基于统计的机器学习实体识别的基本步骤

知识图谱之知识抽取_第3张图片

基于深度学习的实体识别方法基本步骤

知识图谱之知识抽取_第4张图片

b)、关系抽取

关系定义:两个或多个实体之间的某种关系

关系抽取定义:自动识别实体之间具有的某种语义关系 。从文本中抽取实体及实体之间的关系。

关系抽取和实体抽取密切相关,一般是在识别出文本的实体后,再抽取实体之间可能存在的关系。当前,关系抽取方法可以分为基于模板的方法、基于监督学习的方法和基于弱监督学习的方法。

知识图谱之知识抽取_第5张图片

 

关系分类:主要分为语义关系和句法关系

语义关系:是指隐藏在句法结构后面由语义范畴建立起来的关系

句法关系:位置关系、替换关系、同现关系

关系抽取相关术语和概念

中文术语 英文术语 描述
句子级关系抽取 从一个句子中判别两个实体间是何种语义关系
篇章级关系抽取 该任务旨在判别两个实体直接按是否具有某种语义关系,而不必限定两个目标实体所出现的上下文
限定域关系抽取 在一个或多个限定的领域内对实体间的语义关系进行抽取,通常,由于限定域,语义关系也是预设好的有限个类别
开放域关系抽取 与限定域关系抽取不同,开放域抽取并不限定关系的类别,依据模型对于自然语言句子理解的结果从开放式抽取十一关系三元组

关系抽取方法

知识图谱之知识抽取_第6张图片

优缺点

方法 优点 缺点
规则

1、人工规则的准确率高

2、可以为特定领域制定

3、在小规模数据集上容易实现,构建简单

1、召回率低,

2、特定领域的模板需要专家构建,要考虑周全所有可能的pattern很难,很费时间和精力

3、需要为每条关系定义pattern

4、难以维护

基于深度学习方法

 c)、事件抽取

          事件定义:事件是指发生的事情,通常具体时间、地点、参与者等属性。事件的发生可能是因为一个动作的产生或者系统状态的改变。

        事件抽取是指从文本中抽取用户感兴趣的事件信息,并以结构化的形式呈现。例如,从恐怖袭击事件的新闻报道中识别袭击发生的地点、时间、袭击目标和受害人等信息。

        事件抽取相关术语

中文 英文 描述
事件描述 Event Memtion 描述事件的句子
事件触发词 Event Trigger 标记事件类型的词汇
事件要素 Event Argument 事件的参与者
事件角色 Event Role 元素在事件句中扮演的角色
事件发现 Event Detection 事件抽取子任务之一
事件元素抽取 Event Agrument  Extraction 事件抽取子任务之一
事件触发词检测 Event Trigger Detection 属于事件发现任务中的一个子任务
事件触发词分类 Event Trigger Typing 属于事件发现任务中的一个子任务
事件元素识别 Event Agrument Identification 属于事件元素抽取中的一个子任务
事件元素角色识别 Event Agrument Role Identification 属于事件元素抽取中的一个子任务

        事件抽取任务包含的子任务如下有五类

知识图谱之知识抽取_第7张图片

 参考文献

【1】知识图谱(三)--知识抽取 - 知乎

【2】知识图谱构建概述_jinhao_2008的博客-CSDN博客

【3】第四章 知识抽取 - 知乎

你可能感兴趣的:(知识图谱系列,机器学习与人工智能,知识图谱,人工智能)