知识图谱学习笔记——(一)知识图谱概论

前言

随着各种项目的推进,特别是随着ChatGPT4的发布和大火,基于NLP的知识整理和检索成为很多行业、项目急需的功能。前日,去研发部门看了看他们正在使用某知识图谱引擎进行海空领域的知识图谱的构建。但是构建的过程极为艰辛,仍旧是通过人工手动标注的方式,针对输入的报文进行一点点的属性标注处理,然后再生成知识图谱,要不就是采用自上而下的手段,先建立实体节点,然后一个属性一个属性的输入,一个关联关系一个关联关系的手动连接到另一个实体节点上。可以想象,如果用这种方式建立起的知识图谱库能有多大规模?这样缺乏了体量的知识图谱又有什么用?为此,我想着开始研究一下知识图谱的具体构建技术,幸好对于自然语言处理、对于模式识别相关的深度学习和神经网络以及更基础的概率论和数理统计等知识领域有一定的积累,整个过程希望能用2~3个月有一定的进展,能够发现知识图谱构建过程中的坑和难点,目标是能够构建一个小型的具备自动抽取知识点从而构建图谱能力的知识图谱构建方法。
计划分成三个阶段进行:

1.学习: 广泛的学习各种知识图谱相关的论文和教学文章、书籍,了解掌握当前主流的知识图谱构建思路和手段;
2. 尝试:针对开源信息通过爬虫获取大量的网页信息,然后能够从当中抽取知识图谱需要的知识点,掌握2~3中知识图谱构建需要的软件和方法;
3. 构建:针对特定领域文章,构建此领域的小型的知识图谱,能够提供拓扑展示和查询、推荐能力。

现在开始第一阶段,知识的学习。
声明:知识学习中本文主体按照浙江大学陈华钧教授的《知识图谱》公开课讲义进行介绍,并个别地方加入了自己的注释和思考,希望大家尊重陈华钧教授的知识产权,在使用时加上出处。感谢陈华钧教授。

一、知识学习

(一)B站 《浙大知识图谱完整版》——1

学识时间:2023年3月21日09:40:58

1、知识图谱概论

1.1、 语言与知识

人的大脑依赖所学的知识进行思考、推理、理解语言…
知识图谱学习笔记——(一)知识图谱概论_第1张图片

人类通过认识世界积累知识,并通过语言来描述、记录和传承关于世界的知识。同时,准确理解语言也极大依赖大脑中所习得的各种知识。
知识图谱学习笔记——(一)知识图谱概论_第2张图片
人类的自然语言, 以及创作的绘画和音乐、 数学语言、 物理模型、 化学公式等都是人类知识的表示形式和传承方式。
曾经的专家系统
知识图谱学习笔记——(一)知识图谱概论_第3张图片

  • 语言是知识的自然描述方式和表达载体;
  • 既然人脑能够从文本获取和学习知识,机器脑也应该具备从文本中抽取知识的能力。
    知识图谱学习笔记——(一)知识图谱概论_第4张图片
    知识图谱旨在利用图结构建模、识别和推断事物之间的复杂关联关系沉淀领域知识 ,是实现认知智能的重要基石。
    知识图谱学习笔记——(一)知识图谱概论_第5张图片

    • 自然语言:为句子中的每个词学一个向量表示
    • 知识图谱:为每个实体和关系学习一个向量表示
    • 图像视频:为视觉中的每个对象学习一个向量表示

知识图谱学习笔记——(一)知识图谱概论_第6张图片
知识图谱属于 符号 表示体系,同时包括了 符号表示和向量表示
知识图谱学习笔记——(一)知识图谱概论_第7张图片

小结:

  • 人的大脑依靠所学的知识进行思考和推理,具有表示、获取、学习和处理知识的能力是人类心智区别于其他物种最根本的区别之一。
  • 语言是知识的最主要表示载体,语言与知识是实现认知智能最重要的两个方面。
  • 知识图谱可以看作是一种结构化的知识表示方法,相比于文本更易于被机器查询和处理,因而在搜索引擎、智能问答、大数据分析等领域被广泛应用。
  • 语言与知识的向量化表示,以及利用神经网络实现语言与知识的处理是重要的人工智能技术发展趋势。

1.2 知识图谱的起源

万维网是以链接为中心的信息系统
链接为中心的系统, 在开放的互联网环境里面更加容易生长和扩展。
The Semantic Web -语义网
知识图谱学习笔记——(一)知识图谱概论_第8张图片
语义网就是利用规范化的语义表示(Schema & Ontology)将碎片化的数据关联和融合。 ————linked Big Data
知识图谱就是源于各种语义网项目:
知识图谱学习笔记——(一)知识图谱概论_第9张图片
2012年谷歌推出知识图谱,他的思想是 “Things, Not Strings”
知识图谱学习笔记——(一)知识图谱概论_第10张图片

  • 典型知识图谱项目: Freebase

知识图谱学习笔记——(一)知识图谱概论_第11张图片此项目通过开源免费吸引用户贡献数据,对于增值的应用及技术服务收费。

  1. 典型知识图谱项目: WikiData
    知识图谱学习笔记——(一)知识图谱概论_第12张图片
  2. 典型知识图谱项目: Schema.org
    知识图谱学习笔记——(一)知识图谱概论_第13张图片
    谷歌2015年12月推出的Cutomizable Knowledg Graph,允许各网站基于Schema.org,以RDFa, JSON-LD, HTML Microdata等方式在网页、邮件等数据源中嵌入 语义化数据 ,支持个人和企业定制自己的知识图谱信息,全球约有1.2亿的网站,超过30%的网页已经嵌入有Schema.org的语义数据。

编者补充: 为什么要在页面上添加Schema.org标记?答:这样做将使您的页面更易于访问,并且更易于搜索引擎、AI助手和相关Web应用程序查找。
知识图谱相关概念演变
知识图谱学习笔记——(一)知识图谱概论_第14张图片
知识图谱两个核心基因: 人工智能+互联网

1.3 知识图谱的价值

知识图谱有什么用?

  1. KG辅助搜索—语义搜索
    知识图谱学习笔记——(一)知识图谱概论_第15张图片

  2. KG辅助问答交互—知识问答
    对话式的信息获取更加需要精准度和可靠度,知识图谱对于提升用户体验更加不可少
    知识图谱学习笔记——(一)知识图谱概论_第16张图片
    机器人及IOT设备的智能化:给万物都挂接一个 背景知识库

  3. KG辅助推荐系统
    将知识图谱引入到推荐系统中,可以增强User和Item的特征表示, 有利于挖掘更深层次的用户兴趣 ,关系多样性也有利于实现更加个性化的推荐 ,丰富的语义描述还可以增强推荐结果的可解释性。
    知识图谱学习笔记——(一)知识图谱概论_第17张图片

  4. KG辅助大数据分析
    语义集成: Dynamic Ontology
    语义搜索:围绕Ontology来搜索发现结果和关系;
    知识管理:所有的知识是有权限控制的 ;
    协作:知识可以在不同的用户之间共享,协同工作;
    算法引擎:对于通用领域问题,提供了通用算法来发现趋势
    知识图谱学习笔记——(一)知识图谱概论_第18张图片

  5. KG辅助语言理解
    当一个人听到或看到一句话的时候,他使用自己所有的知识和智能去理解。这不仅包括语法,也包括他的词汇知识、上下文知识,更重要的,是对相关事物的理解。
    知识图谱学习笔记——(一)知识图谱概论_第19张图片

  6. KG辅助视觉理解
    知识图谱在CV领域(ComputerVision,计算机视觉)有广泛的应用,将视觉识别出的对象链接到外源的知识图谱,可用来辅助图像 语义关系抽取和视觉语义 的深入理解等。

知识图谱学习笔记——(一)知识图谱概论_第20张图片

  1. 语义辅助设备互联
    机器与机器之间的相互理解和交流沟通需要设备抽象与设备数据语义化。终极的万物互联是设备通过规范化的语义进行数据层面的互联。
    ONEM2M组织: 2012年7月24日,7家发起组织于美国共同签署了伙伴协议,宣告物联网领域国际标准化组织“oneM2M”正式成立。OneM2M作为全球性标准化机构,专门负责制订机器对机器(M2M)通信的技术规格,主要目的是创建通用的M2M服务层,可以轻松嵌入物联网硬件和软件解决方案中,使所有设备都能够与M2M应用服务器实现通信。
    知识图谱学习笔记——(一)知识图谱概论_第21张图片
    知识图谱应用

1、 阿里新零售知识图谱
知识图谱学习笔记——(一)知识图谱概论_第22张图片
2、中医药语义网络
知识图谱学习笔记——(一)知识图谱概论_第23张图片
3、华为自动驾驶网络知识图谱
知识图谱学习笔记——(一)知识图谱概论_第24张图片
4、金融知识图谱
知识图谱学习笔记——(一)知识图谱概论_第25张图片
5、知识图谱的垂直领域应用
知识图谱学习笔记——(一)知识图谱概论_第26张图片
小结:

  • 知识图谱技术源于互联网,最早落地应用的也是 搜索引擎、智能问答和推荐计算 等技术领域。
  • 知识图谱通过 规范化语义 融合多来源数据,并能通过图谱推理能力 支持复杂关联数据的挖掘分析,因此在大数据分析领域也有广泛应用。
  • 不论是语言理解和视觉理解,外源知识库的引入都可以有力的提升语义理解的深度和广度
  • 知识图谱在医疗、金融、电商、通信等多个垂直领域都有着广泛的应用,并且每个领域都有其独特的实现和实践方式。

1.4 知识图谱的技术内涵

(1)知识图谱是交叉技术领域
知识图谱学习笔记——(一)知识图谱概论_第27张图片
(2)知识 + 图谱: 两个互补的技术维度
知识图谱比纯粹的图更有表现力,但是有没有形式逻辑那样复杂。
知识图谱学习笔记——(一)知识图谱概论_第28张图片
知识图谱学习笔记——(一)知识图谱概论_第29张图片
(3)知识图谱技术要素
知识图谱学习笔记——(一)知识图谱概论_第30张图片
(4)技术内涵

  • 基于图的知识表示
    有向标记图 (Directed-Labled Graph) ——最简单、最接近自然语言和人脑认知的数据模型
    RDF:Resource Description Framework (资源描述框架)
    RDF三元组(S,P,O)编码一条语句,它是一简单的逻辑表达式,或者说是关于世界的声明
    知识图谱学习笔记——(一)知识图谱概论_第31张图片

  • 图数据存储与查询
    图数据库充分利用图的结构建立微索引, 这种微索引比起关系数据库的全局索引在处理 图遍历查询 时更加廉价, 其查询复杂度与数据集整体大小无关, 仅正比于相邻子图的大小 。 因此在很多涉及复杂关联和多跳的场景中得到广泛应用。
    知识图谱学习笔记——(一)知识图谱概论_第32张图片

  • Knowledge Base Population
    ◆ 从不同来源、不同结构的数据中进行知识提取,形成知识存入到知识图谱
    文本一般不作为知识图谱构建的初始来源,而多用来做知识图谱补全
    知识图谱学习笔记——(一)知识图谱概论_第33张图片

  • 知识图谱融合
    知识图谱学习笔记——(一)知识图谱概论_第34张图片

  • 知识图谱推理
    知识图谱学习笔记——(一)知识图谱概论_第35张图片
    ◆ 基于符号逻辑的推理方法: OWL Reasoners、 Datalog、 Rete等
    ◆ 基于图结构或表示学习的推理方法: PRA、 AMIE、 TransE、 Analogy、 DeepPath、 NeuralLP等
    编者注:
    OWL Reasoners : RDFS本质上是RDF词汇的一个扩展。后来人们发现RDFS的表达能力还是相当有限,因此提出了OWL。OWL,即“Web Ontology Language”,语义网技术栈的核心之一。OWL有两个主要的功能:
    1)提供快速、灵活的数据建模能力。
    2)高效的自动推理。
    我们也可以把OWL当做是RDFS的一个扩展,其添加了额外的预定义词汇。
    知识图谱的推理主要分为两类: 基于本体的推理和基于规则的推理
    更多的OWL词汇和特性请参考W3C官网文档。

  • 知识图谱问答—KBQA
    知识图谱学习笔记——(一)知识图谱概论_第36张图片

  • 图算法与图神经网络
    知识图谱学习笔记——(一)知识图谱概论_第37张图片
    各种常用的图表示学习技术都可以用来对知识图谱作深入的挖掘与分析

总结:
知识图谱学习笔记——(一)知识图谱概论_第38张图片
知识图谱不是单一技术,做知识图谱需要建立系统工程思维
知识图谱学习笔记——(一)知识图谱概论_第39张图片
本篇完成时间:2023年4月13日08:56:38

你可能感兴趣的:(知识图谱,学习,人工智能)