声明:知识学习中本文主体按照浙江大学陈华钧教授的《知识图谱》公开课讲义进行介绍,并个别地方加入了自己的注释和思考,希望大家尊重陈华钧教授的知识产权,在使用时加上出处。感谢陈华钧教授。
学识时间:2023年4月13日08:56:51
人类的自然语言, 以及创作的绘画和音乐、 数学语言、 物理模型、 化学公式等都是人类知识的表示形式和传承方式。 具有获取、 表示和处理知识 的能力是人类心智区别于其它物种心智的最本质特征, 也是人脑智能的最本质特征。
什么是知识的表达(Representation)?
◆ 简单而言,知识表示( KR)就是用易于计算机处理的方式来描述人脑的知识的方法。
◆ KR不是数据格式、不等同于数据结构、也不是编程语言,对于人工智能而言,数据与知识的区别在于KR支持推理。
知识表达(KR)就是:Computational Model of Reality,现实的计算模型
(1)知识的符号表示
一阶谓词逻辑 (First-Order Logic)
语义网络 (Semantic Net)
产生式规则 (Production Rule)
框架系统 (Framework)
描述逻辑( Description Logic)
逻辑程序 (Logic Programming)
从符号表示到向量表示
(2)知识的向量表示
描述逻辑是一阶谓词逻辑的可判定子集,主要用于描述本体概念和属性 ,对于本体知识库的构建提供了便捷的表达形式,是与知识图谱最密切相关的知识表示方法之一。
核心表达要素:
◆ 概念Concepts:解释为一个领域的子集
例如:学生,已婚者: {x| Student(x) }, {x| Married(x) }
◆ 关系Relations:解释为指该领域上的二元关系
例如:示例:朋友,爱人: {
◆ 个体Individuals:一个领域内的实例
例如:小明,小红: {Ming, Hong}
描述逻辑的知识库O:=
◆ TBox包含内涵知识,描述概念的一般性质
定义: 引入概念以及关系的名称,例如: Mother, Person, has_child
包含:声明包含关系的公理,例如: Mother ⊑ ∃ has_child.Person
◆ ABox包含外延知识 (又称断言知识),描述论域中的特定个体。
概念断言:表示一个对象是否属于某个概念,例如: Mother(Helen),
关系断言:表示两个对象是否满足一定的关系,例如: has_child(Helen, Jack)
(2)Horn Logic
Horn Logic是一阶谓词逻辑的子集,主要特点是表达形式简单,复杂度低。著名的Prolog语言就是基于Horn逻辑设计实现的。
核心表达要素:
◆ 原子Atoms
p(t1, t2 …, tn), p 是谓词, ti 是项(变量或者常量),例子: has_child(X, Y)
◆ 规则Rules
由原子构建: H:– B1, B2, …, Bm.
H称为Head; B1, B2, …, Bm称为Body,例子: has_child(X, Y) :- has_son(X, Y)
◆ 事实Facts:
没有体部且没有变量的规则,例子: has_son(Helen, Jack) :-
(3)一阶谓词逻辑优缺点比较
优点:
接近自然语言,容易被接受,且易于表示精确知识
有严格的形式定义和推理规则,易于精确实现
缺点:
无法表示不确定性知识,难以表示启发性知识及元知识
组合爆炸,经常出现事实、规则等的组合爆炸,导致效率低,推理复杂度通常较高
是以人的逻辑为主导的表示方式,可能并不适合机器,机器可能有自己的逻辑表示。
2.2.2 产生式系统
(1)定义
产生式系统是一种更广泛意义的规则系统,专家系统多数是基于产生式系统:
Feigenbaum研制的化学分子结构专家系统DENDRAL
Shortliffe研制的的诊断感染性疾病的专家系统MYCIN
产生式系统的核心表达形式:
IF P THEN Q CF = [0, 1], 其中P是产生式的前提, Q是一组结论或操作, CF(Certainty Factor)为确定性因子,也称置信度。
(2)优缺点
优点:
自然性:产生式系统采用人类常用的因果关系知识表示形式,既直观、自然,又便于进行推理。
模块性:产生式规则形式相同,易于模块化管理。
有效性:能表示确定性知识、不确定性知识、启发性知识、过程性知识等。
清晰性:产生式有固定的格式,既便于规则设计,又易于对规则库中的知识进行一致性、完整性检测
缺点:
效率不高:产生式系统求解问题的过程是一个反复进行“匹配—冲突消解—执行”的过程。而规则库一般都比较大,匹配又十分费时,因此其工作效率不高。
在求解复杂问题时容易引起组合爆炸。
不能表达结构性知识:产生式系统对具有结构关系的知识无能为力,它不能把具有结构关系的事物间的区别与联系表示出来
2.2.3 框架系统
(1)定义
框架理论的基本思想:认为人们对现实世界中事物的认识都是以一种类似于框架的结构存储在记忆中。当面临一个新事物时,就从记忆中找出一个合适的框架,并根据实际情况对其细节加以修改、补充,从而形成对当前事物的认识。框架系统在很多NLP任务如Dialogue系统中都有广泛的应用。
基本表达要素:
◆框架:是一种描述对象 (事物、事件或概念等)属性的数据结构。
◆一个框架由若干个“槽” (Slot)结构组成,每个槽又可分为若干个 “侧面”。
一个槽:用于描述所论对象某一方面的属性;
一个侧面:用于描述相应属性的一个方面。
槽和侧面所具有的属性值分别称为槽值和侧面值
(2)优缺点
优点
对于知识的描述完整和全面;
基于框架的知识库质量高;
框架允许数值计算
缺点
框架构建成本高,质量要求高;
框架的表达形式不灵活,很难同其它形式的数据集相互关联使用
2.2.4语义网络
1968年J.R.Quillian在其博士论文中最先提出语义网络,把它作为人类联想记忆的一个显式心理学模型,并在他设计的可教式语言理解器TLC (TeachableLanguage Comprehenden)中用作知识表示方法。
(1)WordNet
WordNet是最著名的词典知识库,主要用于词义消歧。 WordNet由普林斯顿大学认识科学实验室从1985年开始开发。
WordNet主要定义了名词、动词、形容词和副词之间的语义关系。例如名词之间的上下位关系(如:“猫科动物”是“猫”的上位词),动词之间的蕴含关系(如:“打鼾”蕴含着“睡眠”)等。
WordNet3.0已经包含超过15万个词和20万个语义关系。
(2)优缺点
优点
结构性:语义网络是一种结构化的知识表示方法,它能把事物的属性以及事物间的各种语义联想显式地表示出来。
联想性:最初是作为人类联想记忆模型提出来的。
自然性:直观地把事物的属性及其语义联系表示出来,便于理解,自然语言与语义网络的转换比较容易实现,故语义网络表示法在自然语言理解系统中应用最为广泛
缺点
非严格性:语义网络没有公认的形式表示体系。一个给定的语义网络所表达的含义完全依赖于处理程序如何对它进行解释。
通过推理网络而实现的推理不能保证其正确性。支持全称量词和存在量词的语义网络在逻辑上是不充分的,不能保证不存在二义性。
处理上的复杂性:语义网络表示知识的手段多种多样,灵活性高,但由于表示形式不一致使得处理复杂性高,对知识的检索相对复杂
小结
2.3.1 基于图的知识表示与建模
知识图谱比纯粹的图更有表现力,但是有没有形式逻辑那样复杂。
(2)RDF: Triple-based Assertion model
RDF是国际万维网联盟W3C推动的面向Web的语义数据标准
An RDF triple (S,P,O) encodes a statement—a simple logical expression, or claim about the world。
一个RDF三元组是对状态的编码,包括简单的逻辑表达的编码或者对世界声明的编码。
(3)RDFS: Simple Vocabulary and Schema简单术语和架构
Defines small vocabulary for RDF:
Class, subClassOf, type, Property, subPropertyOf, Domain, Range
2.3.2 基于RDFS的简单推理
(1)OWL: Web Ontologies
本体的哲学概念
Ontology is the philosophical study of the nature of being, becoming, existence or reality, as well as the basic
categories of being and their relations.
本体是自然本质、形成、存在或现实以及本质及其关系的分类的哲学研究。
本体在计算机科学和人工智能的概念
Ontology in Computer Science and Artificial Intelligence
An ontology is a description (like a formal specification of a program) of the concepts and relationships that can formally exist for an agent or a community of agents.
本体就像一个正式规范的程序那样,是能够正式的为代理或代理的社区而存在的概念和关系的描述。
Web Ontologies
Ontologies based on web standards such as RDFS/OWL. OWL is based on Description Logic, a very very long history of research in Artificial Intelligence
OWL的表达构件
exp:运动员 owl:equivalentClass exp:体育选手
exp:获得 owl:equivalentProperty exp:取得
exp:运动员A owl:sameIndividualAs exp:小明
exp:ancestor rdf:type owl:TransitiveProperty
exp:小明 exp:ancestor exp:小林;
exp:小林 exp:ancestor exp:小志
推理得出: exp:小明 exp:ancestor exp:小志
exp:ancestor owl:inverseOf exp:descendant
exp:小明 exp:ancestor exp:小林
推理得出: exp:小林 exp:descendant exp:小明
exp:hasMother rdf:type owl:FunctionalProperty
exp:hasMother 是一个具有函数性的属性,因为每个
人只有一个母亲,作为约束作用到知识库
exp:friend rdf:type owl:SymmetricProperty
exp:小明 exp:friend exp:小林
推理得出: exp:小林 exp:friend exp:小明
exp:Person owl:allValuesFrom exp:Women
exp:Person owl:onProperty exp:hasMother
exp:hasMother在主语属于exp:Person类的时候,宾语
的取值只能来自exp:Women这个类。
exp:SemanticWebPaper owl:someValuesFrom exp:AAAI
exp:SemanticWebPaper owl:onProperty exp:publishedIn
exp:publishedIn在主语属于exp:SemanticWebPaper类的时候,宾语的取值部分来自
exp:AAAI这个类。上面的三元组相当于:关于语义网的论文部分发表在AAAI上。
exp:Person owl:cardinality “1”^^xsd:integer
exp:Person owl:onProperty exp:hasMother
exp:hasMother在主语属于exp:Person类的时候,宾语的取值只能有一个; “1” 的数据
类型被声明为xsd:integer;
这是基数约束,本质上属于属性的局部约束
exp:Mother owl:intersectionOf _tmp
_tmp rdf:type rdfs:Collection
_tmp rdfs:member exp:Person
_tmp rdfs:member exp:HasChildren
_tmp是临时资源;它是rdfs:Collection类型,是一个容器;它的两个成员是
exp:Person, exp:HasChildren;上述三元组说明exp:Mother是exp:Person
exp:HasChildren这两个类的交集
(2)OWL语言家族
每一种子语言是前述语义表达构件的一类集合,并有相应的复杂度分析
小结:
2.4.1词的向量表示
词的分布式向量表示
One-hot Encoding
词嵌入 -> 知识图谱嵌入
小结:
更新时间:2023年4月14日15:55:05
5.3.1 基于Ontology的推理
5.3.2 规则的推理
5.4.1基于嵌入学习的知识图谱推理
5.4.2基于规则学习的知识图谱推理
5.4.3Ontology Embedding—本体概念层推理
☆★○●◇◆□■△▲→←↑↓〓