知识图谱是结构化的语义知识库,用以符号的形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状知识结构。
数据层与模式层。
数据层:知识以事实存储在图数据库
模式层:模式层在数据层之上,是知识图谱的核心。模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层,借助本体库对公理、规则和约束条件的支持能力来规范实体、关系及实体的关系和属性等对象之间的联系。本体库在知识图谱中的地位相当于知识库的模具,拥有本体库的知识库冗余知识较少。
知识图谱的构建过程是从原始数据出发,采用一系列自动或半自动的技术手段,从原始数据中提取出知识要素,并将其存入知识库的数据层和模式层的过程。这是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含三个阶段:信息抽取、知识融合以及知识加工。
构建知识图谱包含三个步骤:
1.知识抽取。即从各种类型数据源中提取实体(概念)、属性以及实体间的相互关系,在此基础之上形成本体化的知识表达。
2.知识融合。在获得到新知识后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓肯呢个对应于不同的实体等
3.知识加工。对于经过融合的新知识,需要治理评估之后(部分人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量,新增数据库后,可进行知识推理、拓展现有知识,得到新知识。
知识抽取式知识图谱的第一步,其中的关键问题是如何从异构数据源中自动抽取信息得到候选知识单元。信息抽取是一种自动化的从半结构化和无结构的数据中抽取实体、关系以及实体属性等结构化信息的技术。
其中涉及的关键技术包括:实体抽取、关系抽取和属性抽取。
3.1.1 实体抽取
实体抽取,也称为命名实体识别,是指从文本数据集中自动识别出命名实体。
3.1.2 关系抽取
从语料中提取出实体之间的关联关系,通过关系将实体(概念)联系起来,才能够形成网状的知识结构。
3.1.3 属性抽取
属性抽取的目标是从不同的信息源中采集特定实体属性信息。
通过知识抽取,实现了从非结构化和半结构化数据中获取实体、关系以及实体属性信息的目标,然而这些结果中可能包含大量的冗余和错误的信息,数据之间的关系也是扁平化的,缺乏层次性和逻辑性,因此必须对其进行清理与整合。
知识融合包含两部分内容:实体链接与知识合并。通过知识融合可以消除概念额歧义,剔除冗余和错误观念,从而确保知识的质量。
3.2.1 实体链接
实体链接是指对于从文本中抽取得到的实体对象,将其链接到知识库中对应正确实体对象操作。
实体链接的基本思想是首选根据给定的实体指称项,从知识库中选粗一组候选实体对象,然后通过计算相似度将指称项链接到正确的实体对象。
1) 实体消歧
实体消歧专门用于解决同名实体产生歧义的问题技术。实体消歧通常采用聚类算法
2) 共指消解
共指消解技术主要用于解决多个指称项对应同一个实体对象的问题。
3.2.2 知识合并
合并第三方知识库或已有结构化数据
通过知识抽取,可以从原始语料中提取实体、关系、和属性等知识要素。再经过知识融合,可以消除实体指称项与实体之间的歧义得到一系列基本的事实表达。然而事实本身不等于知识,想要最终获得结构化网状化额知识体系,还需要有知识加工的过程。知识加工包括三方面:本体构建、知识推理、质量评估
3.3.1本体构建
本体(ontology)是对概念进行建模的规范,是描述客观世界的抽象模型,以形式化的方式对概念及其之间的联系给出明确的定义。
本体构建可以采用人工编辑手动构建和数据驱动方式自动构建,然后采用算法评估和人工审核相结合的方式加以修正和确认。
数据驱动自动构建包含三个阶段:实体并列关系相似度计算、实体上下位关系抽取、本体生成。
3.3.2 知识推理
知识推理是指从知识库中已有的实体关系数据出发,经过计算机推理,建立实体之间新关联,从而拓展和丰富网络知识。知识推理分为两类:基于逻辑的推理和基于图的推理
3.3.3 质量评估
知识图谱构建是一个不断迭代更新的过程
基于知识图谱的问答系统主要分为2类:基于信息检索的问答系统和基于语义分析的问答系统。
1)基于信息检索的问答系统基本思路是将问题转变为一个基于知识库的结构化查询,从知识库中抽取与问题相关的信息。
2) 基于语义分析的问答系统基本思路是首先语义分析正确理解问题的含义,再将问题转换为知识库查询。
具体应用
参考:刘峤, 李杨, 段宏,等. 知识图谱构建技术综述[J]. 计算机研究与发展, 2016, 53(3):582-600.