知识图谱构建过程的概念性简述

1、信息抽取

信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。
涉及的关键技术包括:实体抽取、关系抽取和属性抽取。

  • 实体抽取:也称为命名实体识别(named entity recognition,NER),是指从文本数据集中自动识别出命名实体。
  • 关系抽取:文本语料经过实体抽取之后,得到的是一系列离散的命名实体,为了得到语义信息,还需要从相关语料中提取出实体之间的关联关系,通过关系将实体联系起来,才能够形成网状的知识结构。
  • 属性抽取:目标是从不同信息源中采集特定实体的属性信息。

2、知识融合

通过信息抽取,从原始的非结构化和半结构化数据中获取到了实体、关系以及实体的属性信息。但这些信息碎片散乱无章缺乏逻辑性、层次性,甚至还有错误的信息碎片对构建知识图谱产生了大量的干扰,所以需要进行知识融合去除上述干扰。

  • 实体链接(entitylinking):是指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。其基本思想是首先根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。实体链接的流程:1、从文本中通过实体抽取得到实体指称项;2、进行实体消域和共指消解,判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义;3、在确认知识库中对应的正确实体对象之后,将该实体指称项链接到知识库中对应实体。
  • 知识合并:除了半结构化数据和非结构化数据以外,还有个更方便的数据来源——结构化数据,如外部知识库和关系数据库。对于这部分结构化数据的处理,就是知识合并的内容。一般来说知识合并主要分为两种:1、合并外部知识库,主要处理数据层和模式层的冲突;2、合并关系数据库,有RDB2RDF等方法。

3、知识加工

通过信息抽取,从原始语料中提取出了实体、关系与属性等知识要素;经过知识融合,消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达。然而事实本身并不等于知识。要想最终获得结构化,网络化的知识体系,还需要经历知识加工的过程。知识加工主要包括三方面内容:本体构建、知识推理和质量评估。

  • 本体构建:本体(ontology)是指工人的概念集合、概念框架,如”人”、“事”、“物“等。本体可以采用人工编辑的方式手动构建(借助本体编辑软件),也可以以数据驱动的自动化方式构建本体。因为人工方式工作量巨大,且很难找到符合要求的专家,因此当前主流的全局本体库产品,都是从一些面向特定领域的现有本体库出发,采用自动构建技术逐步扩展得到的。自动化本体构建过程包含三个阶段:1、实体并列关系相似度计算;2、实体上下位关系抽取;3、本体的生成。
  • 知识推理:在完成了本体构建这一步之后,知识图谱之间大多数关系都是残缺的,缺失值非常严重,此时,我们就可以使用知识推理技术,去完成进一步的知识发现,如推理属性值:已知某实体的生日属性,可以通过推理得到该实体的年龄属性;推理概念:已知(老虎,科,猫科)和(猫科,目,食肉目)可以推出(老虎,目,食肉目)。这一块的算法主要可以分为三大类,基于逻辑的推理、基于图的推理和基于深度学习的推理。
  • 质量评估:是知识库构建技术的重要组成部分,这一部分存在的意义在于:可以对知识的可信度进行量化,通过舍弃置信度较低的知识来保障知识库的质量。

4、知识更新

从逻辑上看,知识库的更新包括概念层的更新和数据层的更新。
概念层的更新是指新增数据后获得了新的概念,需要自动将新的概念添加到知识库的概念层中。
数据层的更新主要是新增或更新实体、关系、属性值,对数据层进行更新需要考虑数据源的可靠性、数据的一致性(是否存在矛盾或杂等问题)等可靠数据源,并选择在各数据源中出现频率高的事实和属性加入知识库。
知识图谱的内容更新有两种方式:1、全面更新:指以更新后的全部数据为输入,从零开始构建知识图谱。这种方法比较简单,但资源消耗大,而且需要耗费大量人力资源进行系统维护;2、增量更新:以当前新增数据为输入,向现有知识图谱中添加新增知识。这种方式资源消耗小,但目前仍需要大量人工干预(定义规则等),因此实施起来十分困难。

你可能感兴趣的:(知识图谱学习笔记,知识图谱,学习笔记)