知识图谱|学习笔记|《知识图谱概念与技术》肖仰华——第1章 知识图谱概述

知识图谱概述

文章目录

  • 知识图谱概述
    • 1.1 知识图谱的基本概念
      • 1.1.1 知识图谱的狭义概念
      • 1.1.2 知识图谱的广义概念
    • 1.2 知识图谱的历史沿革
      • 1.2.1 知识图谱溯源
      • 1.2.2 大数据知识工程
    • 1.3 知识图谱的研究意义
      • 1.3.1 知识图谱的认知智能的基石
      • 1.3.2 知识引导成为解决问题的重要方式之一
    • 1.4 知识图谱的应用价值
      • 1.4.1 数据分析
      • 1.4.2 智慧搜索
      • 1.4.3 智能推荐
      • 1.4.4 自然人机交互
      • 1.4.5 决策支持
    • 1.5 知识图谱的分类
      • 1.5.1 知识图谱中的知识分类
      • 1.5.2 知识图谱的领域特性
      • 1.5.3 典型知识图谱

1.1 知识图谱的基本概念

狭义: 特指一类知识表示,本质上是大规模语义网络

广义:大数据时代知识工程一系列技术的总称,在一定程度程度上指代大数据知识工程这一新兴学科。

1.1.1 知识图谱的狭义概念

  1. 知识图谱作为语义网络的内涵

    作为一种知识表示形式,知识图谱是一种大规模语义网络,包括实体(Entity)、概念(Concept)及其之间的各种语义关系。

    知识图谱本质是语义网络:

    语义网络是一种以图形化的(Graphic)形式通过点和边表示知识的方式,其基本组成元素是点和边。

    点可以是实体(又称对象、实例)、概念(又称类别、类)和值(Value)。

    边可以分为属性(Property)和关系(Relation)两类。当实体的某个属性值也是一个实体时,这个属性实质上就是关系。

    语义网络中的边按照其两端节点的类型可以分为概念之间的子类(subclassof)关系、实体与概念之间的实例(instanceOf)关系,以及实体之间的各种属性与关系。

  2. 知识图谱与传统语义网络的区别

    根本区别:知识图谱规模大

    (1)规模巨大。知识图谱点、边数量巨大原因在于需要覆盖实体,是大知识的代表。
    (2)语义丰富。两方面:富含各类语义关系;语义关系建模多样。
    (3)质量精良。大数据多源特性使得我们可以通过多个来源验证简单事实;众包平台有助于实现大规模知识验证。
    (4)结构友好。知识图谱通常可以表示为三元组,通过图结构和RDF(Resource Description Framework)进行表示。

    知识图谱构建与应用的独特挑战:

    (1)高质量模式缺失。放宽要求,允许模式(Schema)定义不完善甚至缺失,对数据语义理解以及数据质量控制提出挑战。
    (2)封闭世界假设(Closed World Assumption)不再成立。CWA假定数据库/知识库中不存在的事实为不成立的事实。
    (3)大规模自动化知识获取成为前提。

  3. 知识图谱与本体的区别

    本体源于哲学的本体论,侧重对存在进行规定和刻画。本体刻画人们认知一个领域的基本框架,而知识图谱富含的是实例以及关系实例。模式定义实际上在完成本体定义的任务。

1.1.2 知识图谱的广义概念

知识图谱是大数据时代知识工程(Big Data Knowledge Engineering, BigKE)的代表性进展。知识工程的核心内容是建设专家系统,旨在让机器能够利用专家知识以及推理能力解决实际问题。知识表示是发展知识工程最关键的问题之一,知识表示的一个重要方式是知识图谱,侧重用关联方式表达实体与概念之间的语义关系。

1.2 知识图谱的历史沿革

以知识图谱为代表的大数据知识工程的产生有历史必然性。

1.2.1 知识图谱溯源

  1. 传统知识工程

    知识工程属于符号主义。符号主义认为知识是智能的基础。传统人工智能专家认为人工智能的核心问题是知识表示、推理和应用。成功解决的问题普遍具有规则明确、应用封闭的特点,根本局限在于严重依赖人的干预(领域专家、知识工程师、用户反馈)。

  2. 传统知识工程的局限性

    传统知识工程难以适用开放性应用,实际应用不是绝对封闭,则容易超出预先设定的知识库边界。机器理解常识的水平有限。

    (1)隐形知识与过程知识等难以表达。
    (2)知识表达的主观性与不一致性。专家认知有差异、冲突是常态。人类认知存在模糊性,如物体归类。
    (3)知识难以完备。
    (4)知识更新困难。

1.2.2 大数据知识工程

  1. 互联网与大数据应用催生了知识图谱

    应用特点:规模巨大(如搜索引擎);精度要求相对不高;知识推理简单

  2. 大数据时代给知识图谱的发展带来了新机遇

    (1)数据、算力和模型的飞速发展使得大规模自动化知识获取成为可能。
    (2)众包技术使得知识的规模化验证成为可能。
    (3)高质量的用户生成内容(UGC)提供了高质量知识库来源。包括百科、社区、论坛、问答平台。

1.3 知识图谱的研究意义

1.3.1 知识图谱的认知智能的基石

认知智能是指让机器具备人类认知世界的能力。机器认知智能的两个核心能力是“理解”、“解释”。理解是指从数据到知识图谱中的知识要素(包括实体、概念和关系)的映射。解释是将知识图谱中的知识与问题或者数据相关联。

(1)知识图谱使能机器语言认知。

实现机器对自然语言的理解所需要的背景知识的条件如下,知识图谱满足所有条件:

  • 规模必须足够巨大才能理解不同的实体和概念
  • 语义关系必须足够丰富才能理解不同的关系
  • 结构必须足够友好才能为机器所处理
  • 质量必须足够精良才能让机器对现实世界产生正确的理解

(2)知识图谱赋能可解释人工智能:可解释性的缺失问题。

人类倾向于利用概念、属性、关系这些认知的基本元素去解释现象和事实,可以通过知识图谱表达。

(3)知识图谱有助于增强机器学习的能力。

让机器学习模型利用大量累积的符号知识,降低机器学习模型对大样本的依赖,提高学习的经济性,提高对先验知识的利用率。
知识图谱|学习笔记|《知识图谱概念与技术》肖仰华——第1章 知识图谱概述_第1张图片

1.3.2 知识引导成为解决问题的重要方式之一

实际应用越来越要求将数据驱动和知识引导相结合,以突破基于统计学习的纯数据驱动的效果瓶颈。

1.4 知识图谱的应用价值

1.4.1 数据分析

大数据的精准分析(舆情分析、互联网商业洞察、军事情报分析、商业情报分析)和精细分析(个性化制造、搜集评价与反馈)需要知识图谱。

1.4.2 智慧搜索

  1. 精准的搜索意图理解
    精准分类、语义理解、个性化推荐
  2. 搜索对象复杂化、多元化
    文本、图片、代码、声音、视频、文案、素材
  3. 搜索粒度多元化
    篇章级、段落级、语句级、词汇级
  4. 跨媒体协同搜索
    不同媒体数据联合完成搜索、多模态搜索

1.4.3 智能推荐

  1. 场景化推荐。建立场景图谱,实现基于场景图谱的精准推荐。
  2. 冷启动下的推荐。利用来自知识图谱的外部知识,特别是关于用户与物品的知识,增强用户与物品的描述,提升匹配精度,是让系统尽快度过冷启动阶段的重要思路。
  3. 跨领域推荐。
  4. 知识型内容的推荐。

1.4.4 自然人机交互

对话式交互、问答式交互。

1.4.5 决策支持

建立包含各种语义关联的知识图谱,挖掘实体之间的深层关系,成为决策分析的重要辅助手段。

1.5 知识图谱的分类

1.5.1 知识图谱中的知识分类

  1. 事实知识。是关于某个特定实体的基本事实,最常见的知识类型。
  2. 概念知识。分为两类,一类是实体与概念之间的类属关系(isA关系),一类是子概念与父概念之间的子类关系(subclassOf)。
  3. 词汇知识。主要包括实体与词汇之间的关系以及词汇之间的关系,已取得较好应用效果。
  4. 常识知识。常识是人类通过身体与世界交互而积累的经验与知识,使人们不言自明的知识。常识知识的获取是构建知识图谱的一大难点。

1.5.2 知识图谱的领域特性

通用到领域/行业

DKG与GKG之间区别体现在知识表示、知识获取、知识应用三个层面:

  1. 在知识表示层面的区别可以从广度、深度、粒度这三个维度来考察。
  2. 在知识获取层面,DKG对质量要求更高。
  3. 在知识应用层面,DKG的推理链条相对较长,应用相对复杂。

联系:

  1. 领域知识是通过隐喻或者类比从通用知识发展而来。
  2. GKG与DKG相互支撑。GKG给DKG提供高质量种子事实和领域模式。DKG反哺GKG。

1.5.3 典型知识图谱

知识图谱|学习笔记|《知识图谱概念与技术》肖仰华——第1章 知识图谱概述_第2张图片
常见知识图谱

知识图谱 领域 特点 构建方式、规模 语言 类型
Cycorp公司的Cyc 通用 通过人工方法将上百万条人类常识编码成机器可用的形式,用于智能推断 人工,700万条断言,63万个概念,3.8万条关系 英语 常识图谱
普林斯顿大学的WordNet 通用 以同义词集合作为一个基本单元 人工,15万个词,11万组同义词集合,20万条关系 英语 词汇图谱
麻省理工学院的ConceptNet 通用 多语言常识知识库 自动,800万个实体,2100万条关系 多语言 常识图谱
Meta Web公司的Freebase 通用 众包编辑 半自动,4400万个概念,24亿个事实 英语 百科图谱
Geonames.org的Geonames 领域 多语言地理位置信息 半自动,2500万个实体 多语言 地理图谱
DBpedia 通用 百科图谱多语言自动构建 半自动,2800万个实体 多语言 百科图谱
YAGO 通用 人工校验,时空维度,多语言 自动,1000万个实体,1.2亿条关系 多语言 百科图谱
华盛顿大学的OpenIE 通用 开放性关系抽取,Never-ending 自动,50亿条关系 英语 文本图谱
BabelNet 通用 271种语言,自动融合 自动,1400万个实体 多语言 词汇图谱
WikiData 通用 众包编辑 半自动,540万个实体 多语言 百科图谱
Google知识图谱 通用 规模最大 自动,未知 多语言 综合知识图谱
微软亚洲研究院的Probase 通用 概念规模最大 自动,270万个概念 英语 概念图谱
搜狗知立方 通用 侧重于娱乐领域 自动,未知 汉语 百科图谱
百度知心 通用 支持百度搜索 自动,未知 汉语 百科图谱
复旦大学的CN-DBpedia 通用 实时更新,完整的数据/服务接口 自动,1600万个实体,2.2亿条关系 汉语 百科图谱

你可能感兴趣的:(知识图谱,知识图谱,人工智能)