摘要:语义网是现有万维网的变革与延伸,是Web of documents向Web of data的转变。它的目标是让计算机可以像人脑一样理解信息的含义,从而完成智能代理的功能。本文对语义网结构、相关技术、规范做了简要的综述,分析了目前语义网研究所面临的挑战,并为下一步的研究工作明确了方向和重点。
关键词:语义Web 本体 OWL 资源描述框架
互联网之父、HTTP和HTML的发明人蒂姆·伯纳斯-李(Tim Berners-Lee)在1998年[1]提出了语义网(Semantic Web)的概念并在《科学美国人》杂志上发表了相关论文[2],由此揭开了世界范围内语义网研究的序幕。语义网被认为是下一代互联网即Web3.0的发展方向。Web已经成为了人们获取信息的主要渠道,深刻地影响着人类生活的方方面面:人们在Web上浏览国内外新闻、网上交易、搜索信息。然而,目前我们正在使用的Web是面向人的而不是面向机器的,换言之,很多繁琐的过程都要用户参与。面对海量的网页数据,人们准确全面、快速便捷地获取到有价值信息的难度越来越大。语义网是一种使用可以被计算机理解的方式描述事物的网络,它的基本思想就是让机器或者设备能够自动识别和理解万维网上的内容,自动化地处理、集成来自不同数据源的数据[3],使得Web信息获取更为智能便捷。
本文将从4个方面对语义网概念和技术作综合述评:(1)基本概念,对语义网的相关背景、概念做一个总体介绍。(2)体系结构,阐述语义网的体系结构。(3)关键技术,对语义网涉及的RDF(Resource Description Framework,即资源描述框架)和Ontology(本体论)等技术进行介绍。(4)面临挑战,结合当前国内外研究现状阐述语义Web面临的挑战。最后再对语义网技术进行总结和展望。
从Web诞生并经历多年发展至今,Web上的网页数量呈指数级增长。尽管Web上存在海量的信息,但是当前的Web实际上只是一种面向人的存储和共享信息的媒介[4]。Web上的内容是提供给人而不是机器本身来理解和浏览的。由于Web内容没有采用形式化的表示方式,并且缺乏明确的语义信息,故而计算机“看到的”Web内容只是普通的二进制数据,对其内容无法进行识别。如果机器不能充分理解网页内容的含义,就无法实现Web内容的自动处理。
考虑到当前Web存在的上述问题,Berners-Lee提出了语义网。顾名思义,语义网是对现有Web增加了语义支持,它是现有万维网的延伸与变革,其目标是帮助机器在一定程度上理解Web信息的含义,使得高效的信息共享和机器智能协同成为可能。语义网将会为用户提供动态、主动的服务,从而更便于机器和机器、人和机器之间的对话及协同工作。简言之,语义网就是以Web数据的内容,即数据的语义为核心,用机器能够理解和处理的方式链接起来的海量分布式数据库[4]。
Berners-Lee提出了最初的语义网体系结构[5],随着人们对语义网的深入研究,语义网的体系结构也在不断地发展演变。图2-1给出了语义Web的体系结构,各层的功能自下而上逐渐增强。
图2-1 语义网的体系结构
第1层:基础层,主要包含Unicode和URI(Uniform resource identifier)。其中Unicode是一种流行的字符集,采用两字节的全编码,可以表示65536个字符,这使得任何语言的字符都可以被机器容易地接受。URI即通用资源标识符是用于唯一标识抽象或物理资源的简单字符串。网络上的任何资源包括HTML文档、程序、图片、音视频等都有一个能被URI编码的地址,从而实现对Web资源的定位。
第2层:句法层,核心是XML及相关规范。XML是SGML(标准通用标记语言)的一个子集,它以一种自我描述的方式定义数据结构。在描述数据内容的同时能突出对结构的描述,从而体现出数据之间的联系[4]。用户可以在XML中自由地定义标记名称及元素的层次结构。为了便于程序或其他用户能够正确处理用户定义的内容,XML还定义了命名空间(Name Space)和XML模式规范(XML Schema)以提供更好地XML文档服务。
第3层:资源描述框架,主要包括RDF及相关规范。RDF是一种用于描述WWW上资源信息的通用框架,比如网页的内容、作者以及被创建和修改的日期等。RDF[7]本质上是一种数据模型,用主体(subject)、谓词或属性(predicate或property)、客体或属性值(object或property value)所构成的三元组来描述资源的元数据[8]。RDF也可以用于表达其它元数据,例如分子的结构、图书的书目信息等。正因为RDF的灵活性,它成为了诸如生物、化学等许多领域表达元数据的基本方法[11]。可以说,RDF已经成为知识表达的通用形式。如果把XML看成一种标准的元数据语法规范的话,那么RDF就可以看做一种标准的元数据语义描述规范。
第4层:本体层,即定义本体(Ontology)。该层在RDF的基础上定义了RDFS(RDF Schema)和OWL(Web Ontology Language)帮助用户构建应用领域相关的轻量级的本体。RDFS和OWL定义了语义,可以支持机器在用RDFS和OWL描述的知识库和本体中进行推理[4],以达到语义网的目标。
第5至7层分别是逻辑层(Logic)、验证层(Proof)、信任层(Trust)。逻辑层在前面各层的基础上进行逻辑推理操作。验证层根据逻辑陈述进行验证,以得出结论。信任层是语义网安全的组成部分,与加密不同的是,该层主要负责发布语义网所能支持的信任评估[4]。目前第6层和第7层正处于设想阶段。
基于语义Web的体系结构还在建设当中,科研人员及相关组织还在研究制定相关的规范、开发工具及软件包,为将来人们开发友好、可靠的语义网应用提供强有力的支撑。
从图2-1不难看出,实现语义网需要三大技术的支持,即XML、RDF和Ontology。其中XML层作为句法层,RDF层作为数据层,Ontology层作为语义层。
如果说HTML被设计的目的是用来显示数据,焦点在于数据的外观,那么XML(extensible markup language),即可扩展标记语言提出的目的则是传输和存储数据。XML不仅能提供对资源内容的表示,也能描述资源的结构信息。XML严格遵守DTD或Schema定义的语义约束,天生具有良好的数据存储格式、可扩展性、高度结构化等优点,因而XML顺理成章地成为了语义网的支撑技术。事实上,目前国内外针对语义Web关键技术的研究主要集中于RDF和Ontology。
3.1 RDF
RDF是由万维网联盟(World Wide Web Consortium,W3C)组织的资源描述框架工作组于1999年提出的一个解决方案,并于2004年2月正式成为万维网联盟推荐标准。RDF是一种语义资源描述语言,可以视为一种由数据结构、操作符、查询语言和完整性规则组成的数据模型。该模型描述了用元数据表示的真实世界的实体信息,其目标是构建一个综合性的框架来整合不同领域的元数据,实现在Web上交换元数据,促进网络资源的自动化处理[8]。
RDF的基本数据模型包括资源(resource)、属性(property)及陈述(statements)。
(1)资源:一切能够使用RDF表示的对象都称为资源,包括网络上的所有信息、虚拟概念和现实事物等。资源用唯一的URI来表示,不同的资源拥有不同的URI,通常使用的URL只是它的一个子集。
(2)属性:用来描述资源的特征或资源间的关系。每一个属性都有其意义,用于定义资源的属性值(property value)、描述属性所属的资源形态、与其他属性或资源的关系。
(3)陈述:一条陈述包含三个部分,通常被称为RDF三元组<主体,属性,客体>。其中主体是被描述的资源,用URI表示。客体表示主体在该属性上的取值,可以是另外一个资源(由URI表示)或者是文本。
RDF三元组是语义网数据表示的基础。要实现从目前的万维网到语义网的转变,构建海量的RDF数据集是一项基础性工作。当用RDF描述资源时,任何人可以定义用于描述的词汇,但是这些词汇的具体含义、词汇之间的关系RDF没有定义。显然,这不便于机器处理数据,为此RDFS[15](RDF Schema)定义了一组标准类及属性的层次关系词汇,帮助用户构建轻量级的本体。换言之,RDF是领域无关的,没有定义任何领域的语义,这要由用户借助RDFS来完成。RDFS是一种模式语言,定义了特定领域的词汇的含义。RDFS的作用是:①定义资源以及属性的类别;②定义属性所应用的资源类以及属性值的类型;③定义上述类别声明的语法;④ 申明一些由其他机构或组织定义的元数据标准的属性类。RDFS描述类是通过资源rdfs:Class和rdfs:Resourc,特性rdf:type和rdfs:subClassOf来完成的。利用rdfs:subClassOf可以定义子类,形成层次结构。此外,在RDFS中对类的特性的描述是利用RDFS类rdf:Property和RDFS特性rdfs:domain(定义域)、rdfs:range(值域)和rdfs:subPropertyOf来进行声明和描述的。
3.2 Ontology
英文术语“ontology”一词源于哲学领域,且一直以来存在着许多不同的用法。在计算机科学领域,其核心意思是指一种模型,用于描述由一套对象类型(概念或者说类)、属性以及关系类型所构成的世界。尽管不同的本体对于这些构成成分的确切称谓有所不同,但它们却都是一部本体不可或缺的基本要素。一般来说,本体之中模型的那些特征应当非常类似于相应的现实世界[10]。上个世纪90年代初期,斯坦福大学计算机科学家Tom Gruber对于计算机科学术语“ontology”给出了审慎的定义:一种对于某一概念体系(概念表达或概念化过程)(conceptualization)的明确表述(specification)[9]。对于特定一个领域而言,本体表达的是其那套术语、实体、对象、类、属性及其之间的关系,提供的是形式化的定义和公理,用来约束对于这些术语的解释。值得一提的是Gruber便是时下iphone上流行的“Siri智能个人助理”(Siri intelligent personal assistant)的发明者,这项语音识别功能甚至一度成为iphone的卖点。
在语义网的实现中,ontology具有非常重要的地位。怎样构建本体一直是人们研究的热点。各国科研人员研发出了不少本体的构建、存储、和检索工具,其中较为常用的支持中文本体构建的软件是由斯坦福大学开发的Protégé,开发语言采用Java,属于开放源码软件[11-12]。本体的构建大多是面向特定的领域的,因此如果没有规范的方法,就难以在不同领域的本体构建中保持一致。也正因为本体是领域相关的,所以难以制定一个标准的、通用的ontology构建方法。在此背景下,本体工程学应运而生。本体工程研究的内容包括面向领域的本体开发过程、本体生命周期、本体构建方法及方法学,以及为这些方面提供支持的工具包和语言。
本体一般都是采用本体语言来编制的。本体语言是一种用于编制本体的形式化语言。目前已经诞生了不少本体描述语言,既包括专有的,也包括基于标准的。在众多本体语言中,网络本体语言(Web Ontology Language,OWL)是极为耀眼的一颗明星。OWL[16]旨在提供一种可用于描述网络文档和应用之中所固有的那些类及其之间关系的语言。OWL网络本体语言于2004 年2月成为一项 W3C 的推荐标准,它是万维网联盟认可的,用于编纂本体的知识表达语言家族。
为了适应不同的表达能力和计算效率的需要,OWL提供了3种表达能力递增、计算效率递减的子语言:OWL Lite、OWL DL、OWL Full。其中,OWL Lite用于提供给那些只需要一个分类层次和简单约束的用户。OWL Lite是OWL DL的一个子集,且仅支持部分的OWL语言要素。OWL DL包括了OWL Lite语言的所有成分,但有一定的约束:如一个类不能同时是一个个体或者属性,一个属性不能同时是一个个体或者类等。OWL DL适合于那些在拥有计算保证的前提下追求强大表达能力的用户使用。它的缺点是失去了与RDF的完全兼容。OWL Full是OWL语言的全集,包含所有的OWL语言要素并拥有与RDF一样的句法自由,它是面向那些需要RDF的最大限度表达能力的用户。OWL Full允许引入本体来扩展预定义的RDF/OWL词汇的含义。选择OWL DL还是OWL Full关键取决于用户在多大程度上需要RDF的元模型机制。同OWL DL相比,OWL Full对推理的支持难以预测[4]。
OWL弥补了RDFS的不足,运用人工智能(Artificial intelligence,AI)中的逻辑来赋予语义,支持多种形式的推理。在表达概念的语义灵活性、Web内容的机器可理解性等方面OWL比早前的XML、RDF、RDF-S等语言都要强。在RDFS/OWL之上,W3C还定义了规则互换格式(rule interchange format,RIF)和SWRL(Semantic Web Rule Language)来辅助推理。其中RIF支持在不同的规则格式里互操作[13]。
Tim Berners-Lee在《Weaving the Web》一文中说道“如果说 HTML 和 WEB 将整个在线文档变成了一本巨大的书,那么 RDF, schema, 和 inference languages 将会使世界上所有的数据变成一个巨大的数据库”[14]。语义网的愿景虽然很好,但是由于语义Web尚面临诸多问题和挑战,使得其迟迟没有得到大规模应用。语义网面临的主要挑战可以归结为三类,即数据问题、智能问题和安全问题。
(1)数据问题。在语义网中为了实现让计算机或其它设备能够自动识别、处理Web上的数据,需要在网页内容中加入标记,即采用标记语言。考虑到适应不同领域的需要,标记语言必须具备扩展性强的特点。虽然W3C定义了RDF、RDFS、OWL等语义网规范,但同时互联网上的绝大多数内容尚未加上符合语义网规范的标记。因此,如何自动化地给现有的Web内容加上符合语义Web规范的标记是语义网走向实用化面临的难题之一。这涉及到一系列技术:信息抽取、分类、表达、存储、查询等[18-20]。
(2)智能问题。如何让计算机或其它设备进行“思考”和“推断”是另一个技术难题,这涉及到本体、逻辑和规则等方面。对于本体来说,尽管一些概念比较持久,但是实际上它们并不是始终保持不变[4,17],必须把本体当成是可以演变的。如何将变化前后的本体对应起来、如何解决变化的本体可能导致知识库的不一致等都是当前面临的挑战。另外,描述逻辑语言在表达能力上存在一定的不足,某些应用可能要研究表达能力更强的描述逻辑。
(3)安全问题。未来,人们借助语义网技术所构建的数据互联网络能够迅速、准确地找到实体几乎全部的信息。无论是物理实体(如人、组织等),还是抽象实体(如概念),如果不处理好安全问题,一旦某些实体的信息,如个人私密信息、机构涉密信息落入不法之徒手里将可能导致严重的后果。因此,研究人员需要开发一些技术或机制来增强语义网的安全性。
语义学的引入将从根本上改变万维网的性质,语义网是未来网络的发展方向,但是它的实现是一个漫长的过程,能否成功,没有人知道,但总有人去尝试。有研究人员以W3C提出的RDF数据模型为基础,借鉴和利用了当前数据库和图论的研究成果,在语义网数据的模型表示、存储结构、查询和索引等方面取得了长足的进展。本文从语义网概念入手,介绍了其相关技术、规范及面临挑战。未来还有许多研究工作需要深入下去,包括中文本体的构建方法、本体构建工具、海量RDF数据集的管理等等。
[1] 田春虎.国内语义Web研究综述 [J].情报学报,2005,24(2): 243-249.
[2] Berners-Lee T, Hendler J, Lassila O. The semantic web [J]. Scient -ific American,2001,284(5):34-43.
[3] T.Berners-Lee,James Hendler.Publishing on the semantic web[J].Na -ture, 2001 Apr 26,410(6832):1023-1024.
[4] 金海,袁平鹏.语义网数据管理技术及应用 [M].北京:科学出版社,2010.
[5] Berners-Lee.Semanticweb-XML2000[EB/OL].[2014-01-20].http://www.w3. org/2000/Talks/1206-xml2k-tbl/Overview.html.
[6] Signore O.Representing knowledge in the semantic web.Open Cultur- e: Accessing and Sharing Knowledge,2005.
[7] RDF Current Status.http://www.w3.org/standards/techs/rdf#w3c_all.
[8] 邹磊,陈跃国.海量RDF数据管理 [J].中国计算机学会通讯,2012,8(11): 33-39.
[9] http://zh.wikipedia.org/wiki/本体_(信息科学).
[10] Antoniou G, Harmelen F. A Semantic Web Primer [M]. Cambridge:
The MIT Press, 2008.
[11] 胡伟,瞿裕忠,黄智生.语义Web课程建设初探 [J].计算机教育,2013,
12:69-72.
[12] 凌绍东, 霍林, 王超.面向语义网的中文本体应用研究[J/OL]. 计算机技 术与发展, 2014 (02).http://www.cnki.net/kcms/detail/61.1450.TP. 20131129.0857.012.html
[13] 李洁,丁颖.语义网关键技术概述 [J].计算机工程与设计,2007,28(8):
1831-1836.
[14] T.Berners-Lee,Weaving the Web,The Original Design and Ultimate Destiny of the World Wide Web by Its Inventor. Harper Collins publishers Inc ,1999.
[15] Brickley D,Guha R V.RDF vocabulary description language 1.0:RDF schema[EB/OL].W3C,2004[2014-01-20].http://www.w3.org/TR/rdf-sche ma/.
[16] McGuinness D L,Harmelen F V.OWL web ontology language overview
[EB/OL].W3C,2004[2014-01-20].http://www.w3.org/TR/owl-features/.
[17] 李曼,杜小勇,王珊.语义Web环境中本体库管理系统体系结构研究 [J]. 计算机研究与发展,2006,43(Suppl.):39-45.
[18] 杜方,陈跃国,杜小勇.RDF数据查询处理技术综述 [J].软件学报,2013,
24(6):1223-1240.
[19] 吴鸿汉,瞿裕忠.RDF数据浏览的研究综述 [J].计算机科学,2009,36(2):
5-10.
[20] 张剑.国外语义网发展概述 [J].图书情报工作,2005,49(6):62-64.