本体和知识图谱学习

本体论(ontology)

定义

维基:本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达(formal representation)。

本体就是对那些可能相对于某一智能体(agent)或智能体群体而存在的概念和关系的一种描述。 ——汤姆·格鲁伯——《迈向知识共享型本体的设计原则》

我的理解:本体首先是哲学上提出来的,简单来说就是一种概念,如人这个概念集合,它是一种抽象集合用来表达世界上的具体的实际的物体,而在人工只能领域上我们主要将本体论的观念用在知识表达上,即借由本体论中的基本元素:概念及概念间的关连,作为描述真实世界的知识模型。如图
本体和知识图谱学习_第1张图片

如我们输入鱼这个名词,可以得知它是一种动物且住在水里。

分类

领域本体(domain ontology或者说domain-specific ontology,即领域特异性本体)
所建模的是某个特定领域。如医学领域的氨基酸本体(Amino Acid Ontology)、细胞周期本体(Cell-Cycle Ontology,CCO)、疾病本体(Disease Ontology)等。

上层本体(upper ontology或者说foundation ontology,即基础本体)
指一种由那些在各种各样的领域本体之中都普遍适用的共同对象所构成的模型。其中所收录的核心词表,可以用来描述一套领域当中的对象。如openCyc。

openCyc:是一个致力于将各个领域的本体及常识知识综合地集成在一起,并在此基础上实现知识推理的人工智能项目。其目标是使人工智能的应用能够以类似人类推理的方式工作。Cyc知识库中表示的知识一般形如“每棵树都是植物”、“植物最终都会死亡”。当提出“树是否会死亡”的问题时,推理引擎可以得到正确的结论,并回答该问题。

本体要素

常见的本体构成要素包括:

  • 个体(实例):基础的或者说“底层的”对象。
  • 类:集合(sets)、概念、对象类型或者说事物的种类。
  • 属性:对象(和类)所可能具有的属性、特征、特性、特点和参数。
  • 关系:类与个体之间的彼此关联所可能具有的方式。
  • 函数术语:在声明语句当中,可用来代替具体术语的特定关系所构成的复杂结构。
  • 约束(限制):采取形式化方式所声明的,关于接受某项断言作为输入而必须成立的情况的描述。
  • 规则:用于描述可以依据特定形式的某项断言所能够得出的逻辑推论的,if-then(前因-后果)式语句形式的声明。
  • 公理:采取特定逻辑形式的断言(包括规则在内)所共同构成的就是其本体在相应应用领域当中所描述的整个理论。这种定义有别于产生式语法和形式逻辑当中所说的“公理”。在这些学科当中,公理之中仅仅包括那些被断言为先验知识的声明。就这里的用法而言,“公理”之中还包括依据公理型声明所推导得出的理论。
  • 事件 (哲学):属性或关系的变化。

    本体语言

    W3C组织也开始定义了许多本体论的相关语言,如RDF、OWL等。

RDF:资源描述框架(Resource Description Framework, 简称 RDF)

是一个用于表达关于万维网(World Wide Web)上的资源的信息的语言. 它专门用于表达关于Web资源的元数据, 比如Web页面的标题、作者和修改时间,Web文档的版权和许可信息,某个被共享资源的可用计划表等。
本体和知识图谱学习_第2张图片

(就是用URls来标识食物,再用简单的属性来描述事物)

网络本体语言 (Ontology Web Language,OWL)

旨在提供一种可用于描述网络文档和应用之中所固有的那些类及其之间关系的语言。
本体和知识图谱学习_第3张图片
Owl是基于RDF基础之上的,而RDF是建立在XML之上的。

知识图谱

定义

知识图谱:旨在描述真实世界中存在的各种实体或概念。其中,每个实体或概念用一个全局唯一确定的ID来标识,称为它们的标识符(identifier)。
类似于我们对于一个网页会有一个URL,对于数据库中的一条记录会有一个主键id等思想是一样的,强调去刻画thing,这里的thing是和传统web上的网页对比较的。每个属性—值对(attribute-valuepair,又称AVP)用来刻画实体的内在特性,而关系(relation)用来连接两个实体,刻画它们之间的关联。知识图谱亦可被看作是一张巨大的图,图中的节点表示实体或概念,而图中的边则由属性或关系构成。上述图模型可用W3C提出的资源描述框架RDF 或属性图(property graph)来表示。 ————王昊奋

Google知识图谱(英语:Google Knowledge Graph,也称Google知识图)是Google的一个知识库,其使用语义检索从多种来源收集信息,以提高Google搜索的质量。

(The world is notmade of strings , but is made of things.)

谷歌知识图谱:

https://googleblog.blogspot.co.uk/2012/05/introducing-knowledge-graph-things-not.html
对于谷歌知识图谱的理解:
在以往的搜素引擎中,我们主要是根据关键字与查询相匹配,而采用知识图谱则会有更多的含义,它实际搜索的是事物,即像人一样回去联想,从各种关系中引申。如我们搜索居里夫人,如图
本体和知识图谱学习_第4张图片
我们会看到她出生和死亡的时间,但是你也会看到她的教育和科学发现的细节,另外还能发现同时代的其他伟大科学家。所以说知识图谱就是帮我们理解关系,如居里夫人和丈夫、儿女、同事等等之间的关系。

知识图谱的数据来源

主要来源有两种,分别是百科类数据(如维基、Freebase)和结构化数据(如垂直领域站点电商网站,点评网站,还有搜索公司的搜索日志等)。

构建

实体对齐(ObjectAlignment)

旨在发现具有不同标识实体但却代表真实世界中同一对象的那些实体,并将这些实体归并为一个具有全局唯一标识的实体对象添加到知识图谱中。虽然实体对齐在数据库领域被广泛研究,但面对如此多异构数据源上的Web规模的实体对齐,这还是第一次尝试,目前多采用聚类的方法。聚类的关键在于定义合适的相似度度量。(我的理解就是归一化)

为知识图谱构建schema相当于为其建立本体(Ontology)。最基本的本体包括概念、概念层次、属性、属性值类型、关系、关系定义域(Domain)概念集以及关系值域(Range)概念集。在此基础上,我们可以额外添加规则(Rules)或公理(Axioms)来表示模式层更复杂的约束关系。面对如此庞大且领域无关的知识库,即使是构建最基本的本体,也是非常有挑战的。

目前大部分知识图谱建立的方法是自顶向下(Top-Down)和自底向上(Bottom-Up)相结合的方式。

自顶向下的方式

指通过本体编辑器(Ontology Editor)预先构建本体。当然这里的本体构建不是从无到有的过程,而是依赖于从百科类和结构化数据得到的高质量知识中所提取的模式信息。

自底向上的方式

通过上面介绍的各种抽取技术,特别是通过搜索日志和Web Table抽取发现的类别、属性和关系,并将这些置信度高的模式合并到知识图谱中。自顶向下的方法有利于抽取新的实例,保证抽取质量,而自底向上的方法则能发现新的模式。

知识图谱上的挖掘

推理(Reasoning或Inference)

被广泛用于发现隐含知识。推理功能一般通过可扩展的规则引擎来完成。知识图谱上的规则一般涉及两大类。一类是针对属性的,即通过数值计算来获取其属性值。例如:知识图谱中包含某人的出生年月,我们可以通过当前日期减去其出生年月获取其年龄。这类规则对于那些属性值随时间或其他因素发生改变的情况特别有用。另一类是针对关系的,即通过(链式)规则发现实体间的隐含关系。例如,我们可以定义规定:岳父是妻子的父亲。利用这条规则,当已知姚明的妻子(叶莉)和叶莉的父亲(叶发)时,可以推出姚明的岳父是叶发。

实体重要性排序

是指当用户查询涉及多个实体时,搜索引擎将选择与查询更相关且更重要的实体来展示。实体的相关性度量需在查询时在线计算,而实体重要性与查询无关可离线计算。和传统的网页链接组成的图相比,知识图谱中的节点是各种类型的实体,而图中的边是各种语义关系。由于不同的实体和语义关系的流行程度以及抽取的置信度不同,这些因素将影响实体重要性的最终计算结果

相关实体挖掘

指在相同查询中共现的实体,或在同一个查询会话(Session)中被提到的其他实体称为相关实体。一个常用的做法是将这些查询或会话看作是虚拟文档,将其中出现的实体看作是文档中的词条,使用主题模型(如LDA)发现虚拟文档集中的主题分布。当用户输入查询时,搜索引擎分析查询的主题分布并选出最相关的主题。同时,搜索引擎将给出该主题中与知识卡片所展现的实体最相关的那些实体作为“其他人还搜了”的推荐结果。

总结

没有数据就没有知识图谱!

你可能感兴趣的:(学习之路)