文章首发于博客du_ok’s Notes,本文链接为知识图谱入门——知识表示与知识建模
本文首先介绍了早期的知识表示方法,接着介绍了知识图谱的基石——RDF及其扩展RDFS,在它们的基础上又介绍了表达能力以及推理能力更强的OWL与OWL2,最后介绍了一些新的只是知识表示方式,如Json-LD、RDFa、HTML5 Microdata等。
Horn逻辑:一阶谓词逻辑的子集
描述逻辑:一阶谓词逻辑的可判定子集
RDF的概念:
在RDF(Resource Description Framework,资源描述框架)中,R可以代表页面、图片、视频等任何具有URI(Universal Resource Identifiers)的标识符,D代表属性、特征和资源之间的关系,F代表模型、语言和这些描述的语法。
RDF模型:
RDF中知识以三元组的形式出现,每一知识可以被分解为: ( s u b j e c t , p r e d i c a t e , o b j e c t ) (\mathrm{subject,predicate,object}) (subject,predicate,object)
如:(合肥,坐落于,安徽)
RDF同时也是一种用来连接资源的描述的图模型,三元组可以表述为: ( v e r t e x , e d g e , v e r t e x ) \mathrm{(vertex, edge, vertex)} (vertex,edge,vertex),同时在RDF中资源和属性都可以被URI唯一标识。
如给出两个三元组为(CCF ADL, speaker, Haofen),(CCF ADL, theme, KG),可以使用表示为如下图模型:
我们还可以将命名空间定义为前缀,如定义为ex-schema,则得到如下图:
RDF中的属性值同时也可以是一个文字,如字符串/数值(它们不是一个Resource)。
如将上述例子的三元组改为(CCF ADL, theme, ‘KG’),那么这里的KG将不是一个资源或属性,而是一个属性的值,此时图模型表示如下(注意图中的方框):
RDF中的属性的文字值同时可以使一个XML datatype类型。
RDF空白结点:
RDF允许存在匿名的资源,它可以作为连接其他非匿名资源的桥梁,此时RDF中会出现空白结点,因为这个资源不被URI表示,所以可以表示为 _:xyz。
例子:Haofen是某一次KG讲座的讲者。这表示意味着CCF ADL讲座至少有一位讲者,可以表示为如下2跳相连图:
上述例子说明:一个三元组的缺失并不是什么大事情。
RDF分布式的定义与合并知识:
我们可以分布式定义知识:
接着我们可以将分布式的知识进行合并:
带标注RDF:
使用带标注RDF(s),来扩展RDF用来表示更多的信息,如时间、不确定性、空间、信任等。
例子: YAGO2,使用annotated RDF表示的知识库。
语法形式为: ( s , p , o ) : λ (s,p,o):\lambda (s,p,o):λ,其中 λ \lambda λ是一个标志,可以是上述的扩展信息。
例子:(特朗普,就职,总统):2017年1月
RDFS在RDF基础上提供了一个术语、概念等的定义方式,以及哪些属性可以应用到哪些对象上。换句话说,RDFS为RDF模型提供了一个基本的类型系统。
例子:三元组表示用户自定义的元数据Author是Dublin Core的元数据Creator的子类。
.
RDFS通过这样的方式来描述不同词汇集的元数据之间的关系,为网络上统一格式的元数据交换提供便利。
RDF定义了如下几种词汇:
图中,data层是对schema层的实例化,是由数据驱动的。
基于RDFS的推理:
在上面的图中,我们可以在data+schema之后进行推理,如上下位的推理(如subClass),类别的判断等。
给出一个推理的示例:
RDF(S)的缺陷
通过RDF(S)可以表示一些简单的语义,但在更复杂的场景下,RDF(S)语义表达能力显得太弱,还缺少诸多常用的特征。
由于RDF(S)的缺陷,W3C提出了OWL来枯燥和你RDF(S),作为在语义网上表示本体的推荐语言。
OWL Web Ontology Language包含三个子语言:OWL Lite、OWL DL、WOL Full。
关于OWL子语言的选择:
OWL与RDF关系:
OWL词汇:
OWL中的词汇 | 描述 | 示例 |
---|---|---|
owl:equivalentClass | 类等价 | exp:运动员 owl:equivalentClass exp:体育选手 |
owl:equivalentProperty | 属性等价 | exp:获得 owl:equivalentProperty exp:取得 |
owl:sameIndividualAs | 个体等价 | exp:运动员A owl:sameIndividualAs exp:小明 |
OWL中的词汇 | 描述 | 示例 |
---|---|---|
owl:TransitiveProperty | 属性传递 | exp:ancestor rdf:type owl:TransitiveProperty |
exp:ancestor是一个传递关系
exp:小明 exp:ancestor exp:小林; exp:小林 exp:ancestor exp:小志那么根据上述声明,有 exp:小明 exp:ancestor exp:小志
OWL中的词汇 | 描述 | 示例 |
---|---|---|
owl:inverseOf | 属性相反 | exp:ancestor owl:inverseOf exp:descendant |
exp:ancestor与exp:descendant是互反关系
exp:小明 exp:ancestor exp:小林,那么有 exp:小林 exp:descendant exp:小明
OWL中的词汇 | 描述 | 示例 |
---|---|---|
owl:FunctionalProperty | 属性函数性 | exp:hasMother rdf:type owl:FunctionalProperty |
exp:hasMother 是一个具有函数性的属性;因为每个人只有一个母亲。
OWL中的词汇 | 描述 | 示例 |
---|---|---|
owl:SymmetricProperty | 属性对称性 | exp:hasMother rdf:type owl:FunctionalProperty |
exp:小明 exp:friend exp:小林,那么有 exp:小林 exp:friend exp:小明
OWL中的词汇 | 描述 | 示例 |
---|---|---|
owl:allValuesFrom | 全称限定 | exp:Person owl:allValuesFrom exp:Women,exp:Person owl:onProperty exp:hasMother |
exp:hasMother在主语属于exp:Person类的时候,宾语的取值只能来自exp:Women这个类。
OWL中的词汇 | 描述 | 示例 |
---|---|---|
owl:someValuesFrom | 存在限定 | exp:SemanticWebPaper owl:someValuesFrom exp:AAAI,exp:SemanticWebPaper owl:onProperty exp:publishedIn |
exp:publishedIn在主语属于exp:SemanticWebPaper类的时候,宾语的取值部分来自exp:AAAI这个类。上面的三元组相当于:关于语义网的论文部分发表在AAAI上。
OWL中的词汇 | 描述 | 示例 |
---|---|---|
owl:cardinality | 基数限定 | exp:Person owl:cardinality “1”^^xsd:integer,exp:Person owl:onProperty exp:hasMother |
exp:hasMother在主语属于exp:Person类的时候,宾语的取值只能有一个;“1”的数据类型被声明为xsd:integer;这是基数约束,本质上属于属性的局部约束。
OWL中的词汇 | 描述 | 示例 |
---|---|---|
owl:intersectionOf | 相交的类 | exp:Mother owl:intersectionOf _tmp,_tmp rdf:type rdfs:Collection,_tmp rdfs:member exp:Person,_tmp rdfs:member exp:HasChildren |
_tmp是临时资源;它是rdfs:Collection类型,是一个容器;它的两个成员是exp:Person,exp:HasChildren;上述三元组说明exp:Mother是exp:Person,exp:HasChildren这两个类的交集。
![其他词汇]!(https://img-blog.csdnimg.cn/20181210204853682.PNG?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2R1X21pbGVzdG9uZQ==,size_16,color_FFFFFF,t_70)
OWL2包含三大子语言:OWL 2 RL,OWL 2 QL,OWL 2 EL,家族树如下:
OWL2 QL:
QL代表查询语言的意思,用于本体的查询;OWL2 QL是基于描述逻辑语言DL-Lite定义的
其表达能力如下:
通过OWL 2 QL的语言限制,基于QL的本体查询可以优化到多项式对数时间复杂度
OWL2 EL :
QWL2 EL是为概念术语描述,推理而设计的。
QWL2 EL在医疗领域广泛应用,如临床医疗术语本体SNOMED CT
OWL2 RL :
SPARQL是RDF的查询语言(i.e.基于RDF数据模型),可以针对不同的数据集撰写复杂的连接,它支持主流的图数据库。
SPARQL查询的基本构成:
SPARQL查询语言与SQL很相似,定义了OPTIONAL、FILTER、UNION、FROM等关键字,同时它支持嵌套查询,基于规则的查询,详细见Apache Jena - SPARQL Tutorial和SPARQL Query Language for RDF
JSON-LD是JavaScript Object Notation for Linked Data的缩写,是一种基于JSON表示和传输互联数据 (Linked Data)的方法。JSON-LD描述了如何通过JSON表示有向图,以及如何在一个文档中混合表示互联数据及非互联数据。
JSON-LD的语法和JSON兼容。
// 一个json文本
{
"name": "Manu Sporny",
"homepage": "http://manu.sporny.org/",
"image": "http://manu.sporny.org/images/manu.PNG"
}
//一个json-ld文本
{
"http://schema.org/name": "Manu Sporny",
"http://schema.org/url": { "@id":"http://manu.sporny.org/" },
"http://schema.org/image": { "@id":"http://manu.sporny.org/images/manu.PNG" }
}
JSON-LD通过引入规范的术语表示,比如统一化表示“name”,“homepage”和“image”的URI,使得数据交换和机器理解成为基础。
RDFa (Resource Description Framework in attributes)是网页标记语言,它扩充了XHTML的几个属性,网页制作者可以利用这些属性在网页中添加可供机器读取的资源,与RDF的对应关系使得RDFa可以将RDF的三元组嵌入在XHTML文档中,它也使得符合标准的使用端可以从RDFa文件中提取出这些RDF三元组来。
RDFa工作原理:
通过引入命名空间的方法在已有的标签中加入RDFa相应的属性来使得支持RDFa技术的浏览器或者搜索引擎可以解析到,从而达到优化的目的。
<div xmlns:dc="http://purl.org/dc/elements/1.1/" about="http://www.example.com/books/wikinomics">
<span property="dc:title">Wikinomicsspan>
<span property="dc:creator">Mr rightspan>
<span property="dc:date">2006-09-02span>
div>
上面的代码示例中用到了RDFa属性中的about属性和property属性,这段代码示例说明了一篇文章,然后描述了和这篇文章相关的信息,比如说标题,创建者和创建日期,而这些属性就可以使得支持RDFa的机器识别。
假设我们给定信息:腾讯坐落于深圳,深圳坐落于中国;接着给定问题,腾讯坐落于那个国家。此时我们分别用RDF模型与ER模型来表示:
RDF语义模型——关系显示定义:
在语义模型中,我们可以通过两个三元组推理得出腾讯在中国。
关系模型——关系隐式声明:
在ER模型中,我们需要存放三张表,接着通过SQL连接三张表进行查询,这里需要对问题进行语义的理解,对语义的理解是一个较难做到的事情。
这样看RDF语义模型好像与ER模型相比没有什么优势,但是当数据发生变更了的时候,如修改上述给出的信息为:深圳位于广东,广东位于中国,此时语义模型仍然可以根据三元组的推理就可以得出答案,同时并不需要修改其他的任何东西。
而此时,ER模型需要添加一张表,同时还需要修改原来的SQL语句。
王昊奋《知识图谱》