知识图谱学习(二)(笔记整理)

知识图谱的整体架构:

知识图谱学习(二)(笔记整理)_第1张图片
构建知识图谱是一个迭代更新的过程,,每一轮迭代包含以下三个阶段:
1. 信息抽取:从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;
2. 知识融合:在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;
3. 知识加工:对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量。

信息抽取

信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。信息抽取包括:实体抽取、关系抽取和属性抽取。

  • 实体抽取,也称为命名实体识别(named entity recognition,NER),是指从文本数据集中自动识别出命名实体。
研究历史:从面向单一领域进行实体抽取,逐步跨步到面向开放域的实体抽取

知识图谱学习(二)(笔记整理)_第2张图片

  • 关系抽取,文本语料经过实体抽取之后,得到的是一系列离散的命名实体,为了得到语义信息,还需要从相关语料中提取出实体之间的关联关系,通过关系将实体联系起来,才能够形成网状的知识结构。
研究历史:
 1. 人工构造语法和语义规则(模式匹配) 
 2. 统计机器学习方法
 3.  基于特征向量或核函数的有监督学习方法
 4.  研究重点转向半监督和无监督
 5. 开始研究面向开放域的信息抽取方法 
 6. 将面向开放域的信息抽取方法和面向封闭领域的传统方法结合

知识图谱学习(二)(笔记整理)_第3张图片

  • 属性抽取,是从不同信息源中采集特定实体的属性信息,如针对某个公众人物,可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。
    在这里插入图片描述
研究历史:
 1. 将实体的属性视作实体与属性值之间的一种名词性关系,将属性抽取任务转化为关系抽取任务。
 2. 基于规则和启发式算法,抽取结构化数据
 3. 基于百科类网站的半结构化数据,通过自动抽取生成训练语料,用于训练实体属性标注模型,然后将其应用于对非结构化数据的实体属性抽取。
 4. 采用数据挖掘的方法直接从文本中挖掘实体属性和属性值之间的关系模式,据此实现对属性名和属性值在文本中的定位。

知识融合

通过信息抽取,我们从原始的非结构化和半结构化数据中获取到了实体、关系以及实体的属性。但这些信息之间的关系是扁平化的,缺乏层次性和逻辑性,抽取出来的知识中还存在大量冗杂和错误的碎片信息,为了解决这一问题,需要进行知识融合。知识融合包括两部分内容:实体链接、知识合并

  • 实体链接(entity linking):将从文本中抽取得到的实体对象链接到知识库中对应的正确实体对象。其基本思想是首先根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。
研究历史:
 1. 仅关注如何将从文本中抽取到的实体链接到知识库中,忽视了位于同一文档的实体间存在的语义联系。
 2. 开始关注利用实体的共现关系,同时将多个实体链接到知识库中,即集成实体链接(collective entity linking)

知识图谱学习(二)(笔记整理)_第4张图片

  • 知识合并:实体链接链接的是从半结构化数据和非结构化数据那里通过信息抽取提取出来的数据。除了半结构化数据和非结构化数据以外,还有结构化数据,如外部知识库和关系数据库。对于这部分结构化数据的处理,就是知识合并的内容。
知识合并主要分为两种:
合并外部知识库,主要处理数据层和模式层的冲突;
合并关系数据库,有RDB2RDF等方法

知识加工

知识加工主要包括3方面内容:本体构建、知识推理和质量评估。

  • 本体构建
    本体可以采用人工编辑的方式手动构建(借助本体编辑软件),也可以以数据驱动的自动化方式构建本体。因为人工方式工作量巨大,且很难找到符合要求的专家,因此当前主流的方法是从一些面向特定领域的现有本体库出发,采用自动构建技术逐步扩展得到的。
自动化本体构建过程包含三个阶段:
实体并列关系相似度计算 、实体上下位关系抽取 、本体的生成

知识图谱学习(二)(笔记整理)_第5张图片

  • 知识推理
    知识图谱学习(二)(笔记整理)_第6张图片
    知识推理的对象可以是实体间的关系,也可以是实体属性值、本体概念层次关系等。
    这里的算法可以分为3大类,基于逻辑的推理、基于图的推理和基于深度学习的推理。
    知识图谱学习(二)(笔记整理)_第7张图片
  • 质量评估:可以对知识的可信度进行量化,通过舍弃置信度较低的知识来保障知识库的质量。

你可能感兴趣的:(知识图谱)