语义网络与知识图谱

语义网概述

当前的web:

取得了巨大的成功

产生了海量的数据

有了用于结构化数据传输的标准语法(XML)

大量机器可处理,人类可读的文档

当前的Web存在的问题

信息太多但是结构化太少

信息多为满足人类消费(使用)

Web内容多为异构

in terms of content 内容异构

in terms of structure结构异构

in terms of character encoding 编码方式异构

future requires intelligent information integration未来需要智能化的信息集成

人类可以从给定的信息片段演绎推理出隐藏的信息

但是目前的Web能处理文档中的语法

需要自动推理技术

语义网定义

语义网就是一种描述网络Web数据,具有模型语义,并且在一定程度上支持语义推理的知识表示方法。

基本组成

  1. 描述Web信息的开放标准
  2. 从Web描述信息中进一步获取语义的方法

主要方法: 逻辑演绎 (又称自动推理——automated reasoning)

三段论:

E.g.,

D.C. is a capital

Every capital is a city

-------------------------------

Hence: D.C. is a city

语义Web基本思想

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4oWBMe2p-1637587710517)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121122720876.png)]

什么是本体(Ontology)

本体是指一种“形式化的,对于共享概念体系的明确而又详细的说明”。

本体提供的是一种共享词表,也就是特定领域之中那些存在着的对象类型或概念及其属性和相互关系;

或者说,本体就是一种特殊类型的术语集,具有结构化的特点,且更加适合于在计算机系统之中使用;

或者说,本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达(formal representation)。

本体的核心通常是分类体系

事物的类,以层次结构进行组织(Taxonomy)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mr3r7yp9-1637587710519)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121134419765.png)]

事物的类,按照“部分-整体”形式构造层次结构 (Partonomy)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KOA3Z9LS-1637587710520)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121134526941.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7ksRBO9u-1637587710521)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121134546102.png)]

semantic web由tim berners-lee于1998年提出

1989年tim berners-lee发明万维网

semantic network于1960年发明

RDF

组成

  1. URIs

– for referencing resources 可以清楚地区分资源

  1. Literals 文字

– data values 数据值

表示数据的值 for representing data values

采用字符串进行编码 encoded as strings

值通过数据类型进行解释 interpreted by means of datatypes

没有数据类型的字面体当做字符串进行处理 literals without datatype are treated the same as strings

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0nZhJl27-1637587710522)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121135601837.png)]

  1. Empty nodes 空节点

– 没有命名的节点(or the name of which isn’t known)

RDF

表示图有多种可能

一个图表示一系列的三元组(点-边-点)

一个三元组包含:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-H86TcVPe-1637587710523)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121135749766.png)]

规则:

–主语 : URIs 和空节点

– 谓语: URIs (通常被称为属性properties)

– 宾语: URIs 、空节点或文字Literals

注:可以从一系列三元组重构图

语法

turtle语法

XML序列化

Turtle 易于读写 ,但是不是实践中最常用的RDF语法。

RDF的主要语法是基于XML的。

Turtle不是W3C推荐的。

RDF的规范化语法是其XML语法

RDF的XML-based语法

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HHbicsyk-1637587710524)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121141054351.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-B8t2qItu-1637587710524)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121141137961.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-C8HoczDh-1637587710525)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121141322754.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-34dRkEVt-1637587710525)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121141613905.png)]

RDF的XML语法

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZITCV2DN-1637587710526)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121141818118.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7jUI71V7-1637587710526)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121141826253.png)]

小结

什么是语义网,从WEB到语义网

什么是本体,本体的作用

资源描述框架RDF,TURTLE语法与XML-based语法

实验:掌握RDF框架语言的基本语法

RDFS及其形式语义

RDFS

1.动机

RDF可用于表示事实,为表示更一般化的知识(模式(Schema)知识或术语化知识

RDF Schema允许我们进行模式知识建模,而OWL则具有更好的表示能力。

RDF Schema概述

W3C推荐的资源描述框架部分

用于表示模式/术语化知识

使用RDF提前预定义语义的词汇

每个RDFS文档也是RDF文档

Namespace: http://www.w3.org/2000/01/rdf-schema# - 缩写为rdfs:

词汇是通用的,没有绑定特定应用领域

–允许部分指定用户自定义词汇的语义

– 因此,RDF软件可以正确地解释每个RDF Schema中定义的词汇。

2. 类和类层次结构

类和实例

类代表事物的集合

一个URI 可以属于多个类

类可以按层次结构进行组织:

预定义类

每个URI表示一个类,属于rdfs:Class的一个成员

因此rdfs:Class也是rdfs:Class的成员

rdfs:subClassOf是传递的(transitive)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0XdZU4gs-1637587710527)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121144014246.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-D5Q6rltS-1637587710527)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121144023579.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qyYsb9Cn-1637587710528)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121144044882.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SqKa6yEY-1637587710532)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121144428257.png)]

类等价

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-92QiSufY-1637587710532)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121144758120.png)]

类和RDF/XML语法

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qWc8YzaL-1637587710533)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121145014830.png)]

3. 属性和属性层次结构

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SlQ9XXJQ-1637587710534)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121145144176.png)]

4. 属性约束

可以声明某个属性的类型以及它的取值范围,即定义域和值域

数据类型限制也是一样

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3OxplYc8-1637587710534)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121145220189.png)]

陷阱1

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-E9EGiVXL-1637587710535)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121145420412.png)]

陷阱2

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rjzjyXXI-1637587710535)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121145432843.png)]

6.关于命题的建模:物化

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-D1xnQpv9-1637587710536)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121145844479.png)]

实例:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PHn14jaO-1637587710536)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121145900590.png)]

8. RDFS中的简单本体

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qzlJaDvX-1637587710537)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121150257691.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wXAtGLbT-1637587710538)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121150304833.png)]

RDF(S)形式语义

为什么定义语义

我们主要考虑语义概念的逻辑维度(logic dimension),即形式语义

虽然有些特定情况,可以通过样例来获得结论是否有效,但不能保证对于无限多种推理,都能达成共识。解决这一问题最好的方法就是通过定义良好的形式语义来避免非形式化规格说明造成的不确定性。

对于RDF(S)来说,命题就是三元组

什么样的语义是好的

语义网的语义通过逻辑结论(关系)形式进行表示

2. 什么是模型论语义

Interpretation解释

**3. RDF(S)**模型论语义

三元组解释案例

小结:

RDFS语法,RDFS是最简单的本体描述语言

RDF(S)语义,模型语义概念

实验:掌握RDFS语言的基本语法,使用RDFS进行本体建模

本体论与OWL语言

一、本体论

Ontolgoy 在本质上是对客观世界的一种分类描述,因此,Ontology 模型实际上就是一种知识表示模型。

Ontology是建立在这样一种基于分类的概念层次。其通常由如下部分构成:

  1. 概念:抽象层次的Class;

  2. 名义:概念的名字,是用以传达概念的标识和媒介;

  3. 属性:概念之间通过属性相互区别并相互联系;同一类的实例也通过属

性值的不同而相互区别。

  1. 取值:通常需要对属性的类型、值域等加以限制,以保证属性的有效性;

  2. 公理:人们默认已经达成共识且正确的逻辑,是逻辑推理的起点和判断

逻辑正确性的依据。

本体(Ontology)=概念(Concept)+属性(Property)+公理(Axiom)+取值(Value)+命名(Nominal)

语义互联网并非独立的另一个Web,而是今天Web的一个延伸。在语义互联网中,信息被赋予明确而完整的含义(即语义)

二、OWL语言

2. OWL概述

OWL (the Web Ontology Language,网络本体语言)是W3C在2002年7月29日公布的本体建模语言,并以此作为语义网(Semantic Web)的标准建模语言。

OWL的三个子语言

OWL Lite

OWL DL

OWL Full

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8zmFRPxv-1637587710539)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121160545971.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-68XvGkOA-1637587710539)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121160828736.png)]

3. OWL语言大纲(出填空题):

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-j8cExSvF-1637587710540)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121161110991.png)]

4.OWL文档结构

OWL基本元素

简单的类

用到的标签:Class, rdfs:subClassOf

一个领域中的最基本概念应分别对应于各个分类层次树的根。OWL中的所有个体都是类owl:Thing的成员。因此,各个用户自定义的类都隐含地是owl:Thing的一个子类。要定义特定领域的根类,只需将它们声明为一个具名类(named class)即可。

OWL也可以定义空类,owl:Nothing。

rdfs:subClassOf是用于类的基本分类构造符。

rdfs:subClassOf关系是可传递的,即如果X是Y的一个子类,而Y又是Z的一个子类,那么X就是Z的一个子类。

个体

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-paAPydcH-1637587710541)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121162240143.png)]

类和个体的实例

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ujqv9sXq-1637587710541)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121162320841.png)]

简单属性(Property) --定义属性

所用术语:ObjectProperty, DatatypeProperty, rdfs:subPropertyOf, rdfs:domain, rdfs:range

一个属性是一个二元关系。有两种类型的属性:

数据类型属性(datatype properties):类实例与RDF文字或XML Schema数据类型间的关系。

对象属性(object properties):两个类的实例间的关系。在我们定义一个属性的时候,有一些对该二元关系施加限定的方法。

可以指定定义域(domain)和值域(range)。

可以将一个属性定义为某个已有属性的特殊化(子属性)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YnXOJ0zL-1637587710542)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121163013484.png)]

而在OWL中,一个定义域或值域可被用来推断一个类型。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-p4H804Mi-1637587710543)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121163058499.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vbCQoX1L-1637587710543)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121163313642.png)]

属性特性

传递属性(TransitiveProperty):对于任意的x,y和z:P(x,y) 与 P(y,z) 蕴含 P(x,z)

对称属性(SymmetricProperty):对于任意的x和y:P(x,y)当且仅当P(y,x)

函数属性(FunctionalProperty): 对于所有的x, y, 和z: P(x,y) 与P(x,z) 蕴含 y = z

逆属性 (inverseOf):如果一个属性P1被标记为属性P2的逆,对于所有的x 和 y: P1(x,y) 当且仅当P2(y,x)

反函数属性 (InverseFunctional):对于所有的x, y 和 z: P(y,x) 与 P(z,x) 蕴含 y = z

InverseFunctional意味着属性的值域中的元素为定义域中的每个元素提供了一个唯一的标识。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UwgPGzse-1637587710544)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121163707312.png)]

属性限制

前面所讲述的机制都是全局的(global),因为这些机制都会应用到属性的所有实例。而allValuesFrom与someValuesFrom是局部的(local),它们仅仅在包含它们的类的定义中起作用

owl:allValuesFrom属性限制要求:对于每一个有指定属性实例的类实例,该属性的值必须是由owl:allValuesFrom从句指定的类的成员。

基数限制

值域限制在0和1的基数表达式(Cardinality expressions)是OWL Lite的一部分。这使得用户能够表示“至少一个”,“不超过一个”,和“恰好一个”这几种意思。OWL DL中还允许使用除0与1以外的正整数值。

owl:maxCardinality能够用来指定一个上界。

owl:minCardinality能够用来指定一个下界。

使用二者的组合就能够将一个属性的基数限制为一个数值区间。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1zllOQUD-1637587710544)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121164117289.png)]

小结:

了解了本体论基本概念。

学习了OWL本体语言,OWL是W3C推荐的标准本体语言。

OWL是对RDF(S)的一个扩展,OWL可以使用RDF类和属性并增加支持更为丰富的表达元素。

OWL有三种子语言,表达能力和推理能不同。

学习了OWL的基本语法。

描述逻辑及语义(全是重点)

一、描述逻辑

1. 描述逻辑简介

描述逻辑定义

描述逻辑(Description Logic)是基于对象的知识表示的形式化,也叫概念表示语言或术语逻辑。它吸收了KL-ONE的主要思想,是一阶谓词逻辑的一个可判定子集

源于语义网络和KL-ONE

是一阶逻辑FOL的一个可判定的子集(保证推理算法的终止)

建立在概念和关系(Role)之上

概念解释为对象的集合

关系解释为对象之间的二元关系

具有合适定义的语义(基于逻辑)

描述逻辑特性

是以往表示工具的逻辑重构和统一形式化

语义网络 (Semantic Networks)

框架系统 (Frame-based systems)

面向对象表示 (OO representation)

语义数据模型 (Semantic data models)

类型系统 (Type systems)

特征逻辑 (Feature Logics)

具有很强的表达能力

可判定的,总能保证推理算法终止

为什么用描述逻辑

若直接使用一阶逻辑,而不附加任何约束,则:

知识的结构将被破坏,这样就不能用来驱劢推理

对获得可判定性和有效的推理问题来说,其表达能力太高,(也许是太抽象了)

对兴趣表达,但仍然可判定的理论,其推理能力太低。

DL的重要特征是:

它有清晰的模型-理论机制,具有很强的表达能力;

适合于通过概念分类学来表示应用领域;

提供了可判定的推理服务,能保证推理算法总能停止,并返回正确的结果。

2. 描述逻辑基础

DL基础—基本概念

个体individuals (记作 URIs)

类(记作URIs!)

属性 (也记作 URIs!)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FYlP9DtL-1637587710545)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121203221064.png)]

DL基础—特殊类和属性

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-43FoAwMY-1637587710546)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121203637173.png)]

DL基础—Class Constructor类构造子

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xBJxioS2-1637587710547)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121204030115.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TaWvedTx-1637587710548)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121204307036.png)]

描述逻辑基础语言–ALC

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aeJSgbyG-1637587710548)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121204359779.png)]

3. 描述逻辑的体系结构

一个描述逻辑系统包括四个基本的组成部分:

(1)表示概念和关系的构造集;

(2)Tbox术语集(概念术语的断言集合);

(3)Abox断言集(个体的断言集合);

(4)Tbox和Abox上的推理机制。

不同的描述逻辑系统的表示能力不推理机制由于对这四个组成部分的不同选择而不同。

概念和关系

概念——解释为一个领域的子集

示例:学生,已婚者:

{x| Student(x) },{x| Married(x) }

关系——解释为指该领域上的二元关系(笛卡尔乘积)

示例:朋友,爱人:

{ | Friend(x,y) } ,{ | Loves(x,y) }

描述逻辑的知识库K=,T即Tbox,A即Abox。

Tbox

Tbox包含内涵知识,描述概念的一般性质。由于概念之间存在包含关系,Tbox知识形成类似格的结构,这种数学结构是由包含关系决定的,与具体实现无关;

Abox

Abox包含外延知识(又称断言知识),描述论域中的特定个体

TBox:是描述领域结构的公理的集合

定义: 引入概念的名称

包含:声明包含关系的公理

Abox:是描述具体情形的公理的集合

概念断言 ——表示一个对象是否属于某个概念

关系断言 ——表示两个对象是否满足一定的关系

4. Description Logic SROIQ(D)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VjXK73BH-1637587710549)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121210818838.png)]

SROIQ(D) 本质上(语义上)和OWL是一致的.

在owl(见下文)中可用作dl公理的语法糖:

不相交disjoint classes

– ApplePear ⊑ ⊥

不相交并disjoint union

– ParentMotherFather

MotherFather ⊑ ⊥

属性非 negative property assignments (also for datatypes)

¬hasAge(jack,“53”^^xsd:integer)

二、描述逻辑语义

模型理论语义

OWL有两种语义:

1. 描述逻辑语义

也称: 直接语义; 一阶谓词逻辑语义

可以通过将描述逻辑翻译成一阶谓词逻辑获得.

应用一些全局限制!

2. RDF-based 语义 (requires RDF/XML syntax: done later)

没有语义限制.

利用RDFS-推理特性扩展直接语义.

可判定性

  1. 如果一个问题总是存在终止算法,不管该问题是否可解,则这个问题是可判定的。A problem is decidable if there exists an always terminating algorithm which determines, whether or not a solution exists.
  2. 如果一个问题存在一个算法,能在有限时间可解,这个问题是半判定问题。
  3. 一个问题如果不是可判定的,则属于非判定问题。A problem is undecidable if it is not decidable.
  4. 存在同时是半判定和非判定的问题。
  5. 一种描述逻辑如果如果其“蕴含公理”(entailment axioms)是可判定的则这种描述逻辑是可判定的。
  6. 大多数的描述逻辑是可判定的,可判定性是判断一种“好的”描述逻辑的标准。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-p2a22hry-1637587710549)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121211820247.png)]

一个解释就是一个公理集合的模型,如果所有的公理在解释下成立。

知识库的模型

如果基于前面描述的结构化方法的解释对于知识库而言是有意义的,那么这种解释就被称为知识库的模型(model)

不一致性和满足性问题

如果一个知识库至少有一个模型,则其称为可满足的satisfiable或者一致(consistent)的。否则称其为不可满足unsatisfiable ,或者是不一致的(inconsistent),矛盾的。

对于一个表达式C,如果存在一个一个模型使得CI≠ Φ,则这个表达式称为是可满足的,否则称为不可满足。

知识库或者一个具名类的不可满足性通常可以指出模型错误。

Unicorn(beauty)

Unicorn⊑Fictitious

Unicorn⊑Animal

Fictitious⊓Animal⊑⊥

这个知识库是不一致的,因为beauty会是一个Fictitious和Animal,这是最后一个公理不允许的,去掉第一条个体赋值,知识库是一致的,但是Unicorn是不可满足的(即是空集),因为Unicorn的存在会导致前后矛盾。

附录:描述逻辑(OWL)的Turtle语法

知识图谱概述

1. 什么是知识图谱

从学术的角度,“知识图谱本质上是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。“

知识图谱的“图谱”不是图像,而是图模型,每一条知识都是以“点-边-点”的方式组织

知识图谱不仅关注知识如何用图表达,还关注图谱如何获取、融合、更新和推理等问题。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0aq7xLMP-1637587710550)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121215721591.png)]

2. 知识图谱发展历程

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0NCxPNLD-1637587710550)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121215518388.png)]

3. 知识图谱技术流程

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4dtwHPNu-1637587710551)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121215737250.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AFeKbaij-1637587710551)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121220824427.png)]

4. 知识图谱的相关技术

知识图谱与数据库系统(重点)

传统关系数据库无法适应知识图谱的图数据模型。

知识图谱的主要数据模型:RDF图(RDF graph)和属性图(Property Graph)。

形成了RDF数据的三元组库(Triple Store),管理属性图的图数据库。

知识图谱查询语言:声明式(Declarative)和导航式(Navigational)。

RDF三元组库:

数据模型:RDF图

查询语言:SPARQL, 设计了三元组模式、基本图模式、属性路徂等查询机制 。

图数据库:

数据模型:属性图

查询语言:Cypher(开源图数据库Neo4j)、Gremlin、PGQL和G-Core。

知识图谱的存储方案

(1)基于关系的存储方案。包括三元组表、水平表、属性表、垂直划分、六重索引和DB2RDF。

(2)面向RDF的三元组库。主要的RDF三元组库包括:商业系统Virtuoso、AllegroGraph、GraphDB和BlazeGrahp,开源系统RDF4J、Jena、RDF-3X和gStore。

(3)原生图数据库。Neo4j是用Java实现的开源图数据库。

小结:

知识图谱本身可以看作是一种新型的信息基础设施,就像通往人工智能的“燃料”。

从数据维度看,知识图谱要求更加规范的语义提升企业数据质量,终极目标是将非结构、无显式关联的粗糙数据逐步提炼为结构化、高度关联的高质量知识。

从技术维度,知识图谱的构建涉及知识表示、关系抽取、图数据存储、数据融合、推理补全等多方面技术。知识图谱的应用涉及语义搜索、知识问答、自劢推理、知识驱劢的语言及规视理解、描述性数据分析、物联网设备互联等多个方面。

要构建和利用好知识图谱,要系统性地综合利用多个相关领域的技术,更加注重系统思维。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iedWS1tn-1637587710552)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121221436537.png)]

知识图谱的表示与建模

1. 什么是知识表示

简单而言,知识表示(KR)就是用易于计算机处理的方式来描述⼈脑的知识。

KR不是数据栺式、不等同于数据结构、也不是编程语⾔,对于⼈⼯智能⽽⾔,数据不知识的区别在于KR支持推理。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cHrh07Tu-1637587710553)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121222031995.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3vN5bEnW-1637587710554)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121222039914.png)]

知识图谱是表示知识的一种方法知识图谱旨在建模、识别、发现和推断事物、概念之间的复杂关系,是事物关系的可计算模型,已经被广泛应用于搜索引擎、智能问答、语言理解、视觉场景理解、决策分析等领域。

AI长河中出现的主要的知识表示方法

一阶谓词逻辑 (First-Order Logic)

产⽣式规则 (Production Rule)

框架 (Framework)

语义⽹络 (Semantic Network)

逻辑程序 (Logic Programming)

一阶谓词逻辑

⼀阶谓词逻辑是公理系统的标准形式逻辑。

和命题逻辑不同,一阶逻辑支持量词(Quantifier)和谓词(Predicate)。

例如:

命题逻辑:John MaCarthy是图灵奖得主§; Tim是图灵奖得主(q);

一阶逻辑:图灵奖得主(x)是一个原子公式, 表示x是图灵奖得主,图灵奖得主是谓词,x是变量。X为Tim时,表示命题逻辑q。

Ø图灵奖得主(x)是一个否定公式。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ChTfEfDi-1637587710554)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121223403059.png)]

霍恩子句(Horn Clause)和霍恩逻辑

霍恩子句是文字的析取,是最多带一个肯定文字的子句(没有否定符号的文字)

霍恩逻辑是一阶逻辑的子集,基于霍恩逻辑的知识库是一个霍恩规则的集合。

一个霍恩规则有原子公式构成: B1 ∧… ∧ Bn→H, 其中H是头原子公式 ,B1…Bn是体原子公式。事实是霍恩规则的特列,是没有体原子公式且没有变量的霍恩规则。例如→图灵奖得主(Tim)是一个事实

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-II0PzNU3-1637587710555)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121224437798.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5gcWWbkM-1637587710556)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121224528902.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VQ0ql5Eq-1637587710556)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121224451715.png)]

产生式系统

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bTox9Edf-1637587710557)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121224640458.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NTwo3t2Q-1637587710557)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121224647942.png)]

2. 知识图谱的表示框架与语言

框架系统

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JDvS57CZ-1637587710558)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121224704207.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2G8hTYeH-1637587710558)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121224718707.png)]

知识图谱查询语言——SPARQL(看所有例子)

RDF支持类似数据库的查询语言——SPARQL, 提供了查询RDF数据的标准语法、处理SPARQL查询的规则以及结果返回形式。

SPARQL知识图谱查询基本构成

变量,RDF中的资源以“?”或“$”表示;

三元组模板,在where子句中列出关联的三元组模板。

Select子句中指示要查询的目标变量。

常见的SPARQL查询算子

OPTIONAL:可选算子,指这个算子覆盖范围的查询语句是可选的

FILTER:过滤算子,指这个算子覆盖范围的查询语句可以用来过滤查询结果

UNION:幵算子,指将两个查询的结果合幵起来

知识图谱的向量表示方法

词的向量表示

离散的符号化的词语不能蕴含语义信息,所以将词映射到向量空间。不仅有利于相应的计算,在映射的过程中也能使相关的向量蕴含一定的语义。

常见的词向量表示方法:one-hot编码、词袋模型、词向量

知识图谱嵌入的概念

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-00TOSaSn-1637587710559)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121225437771.png)]

知识图谱存储

知识图谱存储

典型的知识存储引擎分为基于关系数据库的存储、面向RDF的三元组数据库和基于原生图的存储。

SPARQL查询实例

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-04vhu5tM-1637587710559)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121230316237.png)]

知识图谱主要的存储结构:

三元组表

水平表

属性表

垂直划分

六重索引

DB2RDF

总结:

典型的知识存储引擎分为基于关系数据库的存储、面向RDF的三元组数据库和基于原生图的存储。

属性图是目前被图数据库业界采纳最广的一种图数据模型。

RDF三元组数据库的查询语言SPARQL

基于关系型数据库的知识图谱存储:三元组表、水平表、属性表、垂直划分、六重索引、DB2RDF.

知识抽取(记基本概念)

一、知识获取不知识图谱获取

二、面向结构化的知识抽取(看看)

三、面向非结构化的知识抽取:实体抽取

实体识别常用方法

基于模板和规则的方法

基于统计模型的方法

基于深度学习的方法

四、面向非结构化的知识抽取:关系抽取

总结:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sChGQD6r-1637587710560)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121231410137.png)]

知识图谱推理(考标题)

一、推理概述

演绎推理(例子看懂,知道是哪种)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-abC0C4FZ-1637587710560)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121231636758.png)]

知识图谱推理

主要关注围绕关系的推理,即:基亍图谱中已有的事实或关系和推断未知的事实或关系,一般着重考察实体、关系和图谱结构三个方面的特征信息

从知识图谱的生命周期来看,不同的阶段都涉及不同的推理任务,包括知识图谱补全 、不一致性检测、查询扩展等

主要方法:

基于演绎的知识图谱推理,如基于描述逻辑 、Datalog、产生式规则等;

基于归纳的知识图谱推理,如路径推理 、表示学习 、规则学习 、基于强化学习的推理等。

二、基于演绎的知识图谱推理

本体概念推理

描述逻辑推理任务

可满足性 (satisfiability)

分类 (classification)

实例化 (materialization)

推理就是通过各种方法获取新的知识或者结论,这些知识和结论满足语义。

datalog、产生式(了解)

总结:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Hn5j1mjX-1637587710561)(C:\Users\Joseph\AppData\Roaming\Typora\typora-user-images\image-20211121232823338.png)]

考试相关

选择 15分 15题

单选多选都有

填空 20分 20空

都是PPT中的标题性字体、大字体

10道判断题 10分

简答题 偏重于给模型或知识图谱查询语言

画图 主要针对RDF

比如物化三元组的画图

写spark语言是重点,至少10分

描述性逻辑语言

给句子,用描述逻辑来描述,用PPT中的例子稍微改改,写五六个,分值一个两分

RDF填空,基于xml RDF格式的填空 turtle语法的RDF填空 基于作业

大题有一个本体建模

比较简单,根据例子稍微变一变

[外链图片转存中…(img-sChGQD6r-1637587710560)]

知识图谱推理(考标题)

一、推理概述

演绎推理(例子看懂,知道是哪种)

[外链图片转存中…(img-abC0C4FZ-1637587710560)]

知识图谱推理

主要关注围绕关系的推理,即:基亍图谱中已有的事实或关系和推断未知的事实或关系,一般着重考察实体、关系和图谱结构三个方面的特征信息

从知识图谱的生命周期来看,不同的阶段都涉及不同的推理任务,包括知识图谱补全 、不一致性检测、查询扩展等

主要方法:

基于演绎的知识图谱推理,如基于描述逻辑 、Datalog、产生式规则等;

基于归纳的知识图谱推理,如路径推理 、表示学习 、规则学习 、基于强化学习的推理等。

二、基于演绎的知识图谱推理

本体概念推理

描述逻辑推理任务

可满足性 (satisfiability)

分类 (classification)

实例化 (materialization)

推理就是通过各种方法获取新的知识或者结论,这些知识和结论满足语义。

datalog、产生式(了解)

总结:

[外链图片转存中…(img-Hn5j1mjX-1637587710561)]

考试相关

选择 15分 15题

单选多选都有

填空 20分 20空

都是PPT中的标题性字体、大字体

10道判断题 10分

简答题 偏重于给模型或知识图谱查询语言

画图 主要针对RDF

比如物化三元组的画图

写spark语言是重点,至少10分

描述性逻辑语言

给句子,用描述逻辑来描述,用PPT中的例子稍微改改,写五六个,分值一个两分

RDF填空,基于xml RDF格式的填空 turtle语法的RDF填空 基于作业

大题有一个本体建模

比较简单,根据例子稍微变一变

八道大题

你可能感兴趣的:(知识图谱)