起初,在我利用相关工具构建完成了领域本体之后,打算写一个如何建本体的详细教程,以使初学这能快速入门,掌握如何利用工具编辑本体的技巧.但是,我现在又觉得没有这个必要.由于目前的本体编辑工具并不成熟,并且也在快速发展和变化之中,此刻的编辑技术可能过了一两个月就不适用了,所以针对某个工具的教程并没有多大价值。对于需要学习和使用本体的单位和个人,一般本身就属于高端人员(指技术和知识水平),国外的一些相关教程应当都能看懂,所以也没有必要做一个简单的翻版。本人的学习经验告诉我,在解决一个问题时,方法论更重要,因此,我更希望与人交流我的学习方法和学习过程,以及学习之后的经验所得,而不希望停留在技术本身。故,本文将对本体开发方法做宏观层面的论述,而不拘泥于技术细节。
1 本体概念及层次的设计
在本体开发导论中,笔者说明,在开发过程中,我们首先需要列出所有的有可能要用到的词汇,并根据应用的需要,构建类及类之间的层次结构,并在本体开发的有关问题和命名规范一文中提出了本体开发过程中的一些不成文的非强制的概念命名规范。但,现在的问题是:词汇到底从哪来,是凭空设想?还是根据事物的特性自行归纳?显然,这两种方法都是可行的,也都不违背本体的基本原理和构建的理念。但是,它们仅仅是可行的,而不一定是最有效的。因为,凭空想象的或自行定义的概念及层次结构主观性太强,有可能只能自己才能理解,别人的理解肯定会产生偏差。而采用本体的目的是为了是信息在人与人、人与机器、机器与机器之间进行良好的交互,自定义的本体难以进行更广泛的应用(除非这种自定义的本体已经形成了行业的默认规范),也不便于后期的维护和更新。那到底该如何解决这个问题呢?传统的信息和知识组织方法这时能够发挥很大的作用。
传统的信息、知识组织方法有许多种,并且在很多领域有着广泛的应用。这些方法经过长时间的积累,已经形成了一个比较完善并且得到公众的认可的概念体系,里面的词汇及层次结构是我们构建本体时的重要参考。本节简要介绍分类法和主题法两种信息、知识组织方法,在具体使用时,读者需要找到相应的资源参考,这里仅提供一个思路。
1.1 分类法
分类法是一种用分类号来表达文献的主题概念,并按学科性质分门别类的将文献资源组织起来的信息组织方法。它运用到逻辑分类原理,以科学分类为基础,以文献内容的科学性质为对象,从一般到具体,从简单到复杂,进行层层划分,每划分一次,便产生若干类目。逐级划分,就产生了不同等级的类目,这些类目层层隶属,形成一个严格有序的等级体系。分类法的典型代表是:《中国图书馆分类法》、科图法,以及国外一些著名的分类法,如杜威十进制分类法等。这些分类法的最大可取之处是其对知识的科学分类,对本体的构建具有重要的借鉴意义,可以用于形成领域本体的顶层本体。
1.2 主题法
主题法从内容角度标引和检索信息资源,通过主题概念来集中文献资源。它一般以主题词为标引和检索标识,以字顺为主要检索途径。主题词之间有着固定的语义关系,可以直接用来表达、描述文献内容特征,是规范化的名词术语。并以规范化为基础,通过概念组配可以表达任何专指概念,便于特性组配检索。
主题法包括标题法、元词法、叙词法、关键词法四种类型。每种类型各有其特点,并且有不同程度的应用。读者可以查阅相关资料了解其具体情况。
1.3 分类法、主题法对于本体构建参考的适应性分析
通过上面的分析,我们已经可以看出,分类法和主题法对于本体的构建是有很大的作用的。具体来说,这主要是由于它们和本体论之间存在着诸多联系。
三者都通过对信息进行表示、序化和组织来构造概念模型,描述概念及其之间的关系;它们均由一个概念集合和概念间关系集合组成,每个集合中包含了特定社会、组织公认的概念及概念间的关系;它们所使用的词汇相近,并对概念间的关系进行了描述和揭示。
这样,一个成熟的分类表可以帮助我们在构建本体时选择概念及表述概念之间的关系,并判断概念之间、信息资源之间的相关性。因此,传统的信息、知识组织方法,一方面可以直接用来构成顶层本体,然后在词基础上进行加工、添加属性等,另一方面,又可以在构建本体时提供了词汇及概念之间的关系的参考。这将大大缩短我们本体的开发时间、提高效率。同时,由于使用了公认的、规范的术语,使得本体的扩展性和可维护性大大提高,也便于发布和共享。
当然,若无这些东西可参考,那就只有自行进行设计了。不过也还是最好参照相关领域的传统知识组织方法或已有的领域本体,最大限度的降低本体开发的难度和提高效率。
2 本体具体开发
本体开发的工具较多,如美国斯坦福大学的protege和onmlingua、德国的kaon和ontoedit、英国的webonto、西班牙的webode等,这些工具各有其特点。不过到目前为止,在国内最为流行的是protege,很多研究人员都在使用这个工具构建用于研究的本体。读者可以到其官方网站上下载该工具。对于使用该工具,有一套配套的教程OWL本体开发实践指南,读者可以按照此教程学习如何使用protege开发本体。由于这套教程的描述非常清晰和详细,思路也符合常规习惯,所以只要能看懂英文,很快便可以学完这套教程,故笔者也不再在此论述具体如何使用该工具开发本体了。
值得说明的是,人们往往有一个误区,认为本体开发非得要用工具才能进行。其实并非这样,本体本身作为一种知识组织与表示的方法论,有着许多种表现形式。只是为了使其能在计算机中实现,人们开发了各种各样的本体语言,如目前最为有效、最为流行的OWL语言。也就是说,如果一个人很熟悉OWL语言,那么他完全是可以用手+记事本的方式实现计算机可读的本体的。只不过用工具开发起来更高效、更形象,也比较容易维护而已。使用工具开发本体仅仅是本题开发过程中的一小步而已,并不占主要位置,关键还是前期的应用调查、概念及概念层次结构、属性等的设计。
3 参考文献
[1]A Practical Guide To Building OWL Ontologies Using The. Protege-OWL Plugin and CO-ODE Tools. Edition 1.0. Matthew Horridge. 1. ,. Holger Knublauch. 2. , Alan Rector. 1. , Robert Stevens ..
[2]周宁.信息组织.武汉:武汉大学出版社,2004.11.