《知识图谱》赵军 阅读笔记(二)——第二章 知识表示

第二章 知识表示 阅读笔记

  • 2.1 经典知识表示理论
    • 2.1.1 逻辑
    • 2.1.2 语义网络
    • 2.1.3 框架
    • 2.1.4 脚本
  • 2.2 语义网中的知识表示方法
    • 2.2.1 语义网表示方法
    • 2.2.2 语义网知识描述体系
        • 2.2.2.1 XML
        • 2.2.2.1 RDF
        • 2.2.2.1 OWL
  • 2.1 知识图谱中的知识表示方法
    • 2.3.1 表示框架
    • 2.3.2 Freebase中的知识框架
  • 2.4 知识图谱中的数值化表示方法
    • 2.4.1 符号的数值化表示
    • 2.4.2 文本的数值化表示
    • 2.4.3 知识图谱的数值表示

知识表示是基于知识的人工智能应用中的核心部分。知识表示有五大重要角色,
1. 知识表示是一种代理,基于对事物的表示,我们无须实践,而是通过思考和推理就可以得到有关外部世界的结论。
2. 知识表示是一组本体论约定的集合,说明我们以什么样的方式来思考世界。
3. 知识表示是智能推理的组成部分:推理需要对知识进行表示,但知识表示不是推理的全部。
4. 知识表示是高效计算的媒介,通过对知识进行有效组织,支持高效的推理。
5. 知识表示是人类表达的媒介,基于通用表示框架,方便人们表达和分享对世界的认知。

2.1 经典知识表示理论

2.1.1 逻辑

逻辑
从简单到复杂分为:
命题逻辑、一阶谓词逻辑、高阶逻辑。
1.命题逻辑:具有最简单的语法,定义了具有真假值的原子命题,通过与、或、非、蕴含、当且仅当等将多个原子命题组合成复合命题,而推理过程则根据逻辑连接词的真值表进行推导,适合进行简单的推理。这是一种非常简单但是非常实用的逻辑。
2. 一阶谓词逻辑(一阶逻辑):在命题逻辑基础上引入了全称量词和存在量词,使得一阶逻辑可以量化实体和概念。它具有完备的逻辑推理算法。
3.高阶逻辑:量化谓词或集合、二阶量化集合、三阶量化集合的集合
优点
谓词逻辑是一种强大的知识表示语言,一阶谓词逻辑具有完备的逻辑推理算法,它可以保证知识的一致性,也能够确保推理结果的正确性。它可以表达对象集合的属性,而不用逐一列举所有对象。
缺点
难以表示过程性知识和不确定性知识。特别是在数据量较大时,工作效率非常低。

2.1.2 语义网络

语义网络是奎利恩等人提出的一种模型。语义网络是一个通过语义关系连接的概念网络,它将知识表示为相互连接的点和边的模式,其中节点表示实体、事件、值等,边表示对象之间的语义关系。语义单元的三元组形式表示为:<节点1,关系,节点2>。
语义网络的关系类型有:
实例关系(ISA):
具体与抽象,一个事物是另一个事物的一个实例,如“小王是一个人”。
分类关系(AKO):
一个事物是另一个事物的一种类型,如“篮球是一种球”
成员关系:
个体与集体,一个事物是另一个事物的成员,如“小于是一个公务员”
属性关系:
事物和其属性之间的关系,如人的身高
聚合关系:
组织或结构特征的部分与整体的关系,如“凳子是桌子的一部分”
时间关系:
不同事件发生时间的先后次序关系,常用在前,在后
位置关系:
不同事物在位置方面的关系,在上,在下,在内
相近关系:
不同事物在形状、内容等方面相似,如狮子老虎食物链位置相近
语义网络中的多元关系会被转化为多个二元关系来表示。
需要注意的是,语义网络和一阶谓词具有相同的表达能力,但他以一种简单的形式统一描述所有的知识,非常有利于计算机的存储和检索。其缺点也非常明显,就是无法进行推理。

2.1.3 框架

从认知学的角度,人类都是以一种类似于框架的结构存储在记忆中。在根据实际情况对框架进行填充,填充的部分叫做槽,框架以及槽的粒度则根据人类对事物的认知程度而定。
FrameNet是一个经典的基于框架表示的知识库。它针对词汇级的概念进行框架的建模,认为大部分词汇的语义能够通过语义框架的形式进行表示。FrameNet的数据是以层级结构进行表示和存储的。FrameNet中位于最上层的节点表示框架,框架之间的边表示框架之间的关系。框架之间有两种边,无向边和有向边,他们。也代表了两种关系,即无向关系和有向关系。他已经被证明对一系列的自然语言处理任务具有明显的效果。可以说在某些方面框架是一种非常有效的知识表示方法。

2.1.4 脚本

脚本是一种和框架类似的知识表示方法。它通过一系列的原子动作来表示事物的基本行为,按照时间叙述描述事物的发生,类似于电影剧本。脚本表示的知识有确定的时间和因果的顺序,必须是前一个动作完成后会触发下一个动作的开始。可以说脚本是用来描述动态过程而非静态知识的表示方法,它与框架有着不同的目的。
这种表示方法虽然有很强的时序关系表示能力,但在对于基本属性的描述上能力有限。也很难描述多变事件发展的可能方向。

2.2 语义网中的知识表示方法

2.2.1 语义网表示方法

语义网指的是对万维网的功能进行扩展,来提高其智能程度。语义网革命指的并不是在科学上有革命性的突破,而是工程上的挑战,其中标准化,规模化,系统开发与集成,用户交互等都是语义网技术面临的挑战。
目前的Web2.0使用的是Html文档对网页进行表示,但语义网使用的是Xml格式文档来表示网页。这样的表示方法,可以让计算机更好的理解网页中的信息。网页中的标签也不再仅仅是网页格式的标志,而是含有自身的语义。

2.2.2 语义网知识描述体系

目前,语义网。知识表示体系。主要有以下三个层次。一是XML,即全称可扩展标记语言。它是最早的语义网表示语言,是从网页标签是语言向语意表达语言的一次飞跃。二是RDF,即全称资源描述框架。他可以看成XML的扩展或简化。三室OWL,全称网络本体语言。他是本体的语义表示语言,建立在RDF 和RDF Schema的基础上。能够表达本体知识和刻画属性之间的关系。

2.2.2.1 XML

Xml并不是我转为语义网而设计的。它的最初版本是在上世纪80年代初被提出来用来处理动态信息的显示问题,以及为了解决Html在数据表示和描述方面混乱的问题的技术标准。
它的主要优点在于灵活。在一个使用了Xml的系统中。系统设计者完全可以灵活的设计所需要的元素和属性的标签。
但是,在某些情况下,一旦没有提供这些标签的说明,那么。一些自定义、个性化的标签的语义便难以知晓。这对系统的使用和更新都会带来一定麻烦。

2.2.2.1 RDF

在链接开放数据项目出现后,开发于不同时期和不同组织的语义知识是需要相互兼容,因此需要统一且无歧义的语义定义方式。W3C又提出了资源描述框架RDF。RDF假定任何复杂的语义都可以通过若干的三元组的组合来表达,并定义这种三元组的形式为“对象-属性-值”和“主语-谓词-宾语”。
在使用RDF知识表示的数据库中,为了存取相关知识,研究者们为它开发了一种类似于SQL语句中SELECT-FROM-WHERE的查询方式。
标准的RDF和XML一样同样是领域无关的。这既是他的优点,也是他的缺点。这一特性虽然使其具有更大的自由度,但也使得同一领域中的不同知识难以交互和融合。
RDF局限于二元谓词,RDFs则限制与子类和属性层次及其属性的定义域,值域。

2.2.2.1 OWL

为了解决RDF局限性。W3C又提出了网络本体语言作为语义网的领域本体表示工具。

2.1 知识图谱中的知识表示方法

2.3.1 表示框架

通常情况下,一个知识本体主要涵盖以下几个方面的内容,
1、事务:客观世界中的实体或者对象;
2、概念:具有相似本体特征的一类事物,也称类型;
3、属性:事务和概念具有的特征和特性等。;
4、关系:概念与实体之间的关联方式;
5、函数:事物或概念之间进行转化的形式表达。;
6、约束:某项断言成立的限制条件的形式化描述。;
7、规则:根据某项断言得到逻辑推论的因果关系知识的形式化描述;
8、公理:永远为真的断言;
目前大部分知识图谱主要是对前四部分内容进行建模,只有很少的知识图谱建模了简单的规则结构。这同时也反映了不同层次知识代表是上的复杂程度是不同的。
我们所描述的狭义知识图谱可以看成是知识库的图结构表示。除了谷歌知识图谱之外。FreeBase,Yago等具有图结构的三元组知识库,也是一种狭义的知识图谱。用统一的三元组形式来表示知识,不论是对人类操作的便捷性,还是对计算机计算的高效性,都具有非常大的优势。这一章描述的知识图谱局限在现存的具有图结构的三元组知识库上,泛指三元组r(h,t)知识组成的有向图结构。但是我们也应该注意到,知识图谱的知识表示绝不仅仅体现在以RDF为基础框架的三元组之上,还体现在实体、类别、属性、关系的多颗粒度,多层次语义单元的关联之中,他是一个知识系统。以一种统一的公式表示的知识定义和知识实力两个层次的知识。
另一方面。知识图谱也可以看成是语义网的工程实现,不太专注于对知识框架的定义,而专注于如何以工程方式从文本中自动抽取,或者依靠众包的方式获取并组建广泛的具有平铺结构的知识实例,最后要求使用它的方式具有容错、模糊匹配等机制。这种对内容的宽泛定义,可以看成是狭义的知识图谱和语义网的主要区别。

2.3.2 Freebase中的知识框架

2.4 知识图谱中的数值化表示方法

2.4.1 符号的数值化表示

知识表示的一大重要目标就是进行语义计算。很多知识表示方法,用符号显示表示概念及其关系,概念的种类和关系的类型都是人们总结的结果,其中难免存在有遗漏的情况。
另一方面。目前的大多数及语义计算任务都采用基于数值计算的统计机器学习方法。而作为知识载体的数据表示是机器学习中的基础工作数据表示的好坏直接影响到整个机器学习系统的性能。因此,人们投入了大量精力去研究如何针对具体任务设计一种合适的数据表示方法,以提升机器学习系统的性能。这一环节也被称作特征工程。特征工程是人类对特定任务,智慧和灵感的体现。特征工程在传统技艺学习算法中有着不可替代的地位,但是由于需要大量的人力和专业知识,这也成为了积极学习系统性能提升的瓶颈。为了让机器学习算法有更好的扩展性,研究人员希望可以减少对特征工程的依赖。这样当靶机学习算法推广到新的领域中,十就可以省去大量增加,在新领域上分析和探索。加快应用的进程,使得系统更为智能。

2.4.2 文本的数值化表示

书中关注的知识表示以文本处理和自然语言处理为核心。在自然语言处理领域,深度学习技术并没有产生类似图像和语音领域那样的突破。其中一个主要原因是在图像和语音领域,最基本的数据是信号数据,我们可以通过一些距离度量判断信号是否相似,而文本是符号数据。两个词仅是字面不同,就难以刻画它们之间的联系。因此,在判断两个词是否相似时,还需要更多的背景知识才能做出回答。我们也希望计算机可以从大规模无标注的文本数据中自动学习得到,我们表示,这种表示,需要包含对应语言单元的语义信息,同时可以直接通过这种表示度量语言单元之间的语义相似度。
谁是知识表示的最基本单元?而传统不用符号表示这个词的方式不包含任何语义信息。如何将语义融入到词表示中,Harris在1954年提出的分布假设,为这一设想提供了理论基础:上下文相似的词,其语义也相似。Frith之后对其进行进一步的阐述和明确,词的语义由上下文决定。之后,随着统计方法,在自然语言处理中逐渐成为主流,人们发明了很多基于机器学习和深度学习的构造词表示的方法。

2.4.3 知识图谱的数值表示

知识图谱表示学习的方法,主要有张量分解模型和基于能量函数的模型等,他们都有各自的学习方式。这两部分涉及到机器学习和深度学习。

你可能感兴趣的:(知识图谱学习)