PS:本文来自于对《王向前, 张宝隆, 李慧宗. 本体研究综述[J]. 情报杂志, 2016, 35(6):163-170.》文献的学习
1.本体的定义
德国学者Studer等人(1998)认为:“本体是共享概念模型的明确的形式化规范说明”
[1] Studer R, Benjamins V R, Fensel D. Knowledge engineering:principles and methods. Data Knowl Eng 25(1-2):161-197[J]. Data & KnowledgeEngineering, 1998, 25(1-2):161-197.
Studer给出的本体定义被各领域专家学者高度认可,其涵盖了本体的基本特征:共享、明确、概念化、形式化,被学术界广泛引用,对于后来的本体研究具有重要意义。
张秀兰教授通过对国内外各领域本体定义的深入研究,总结出了本体定义:本体是通过描述、捕获领域知识,确定领域内共同认可的概念和概念间的关系,以用于领域内的不同主体之间交流与知识共享的形式化规范说明。[8]张秀兰,蒋 玲.本体概念研究综述[J].情报学报,2007(4):527-531.
对比中外学者关于本体的定义不难发现,国外对本体的研究较为深入,所给出的本体定义比较经典,被学术界广泛引用。而国内关于本体的研究起步较晚,多数学者对本体的研究是在国外学者的基础上进行的,对于本体的定义强调领域概念,是对本体定义的进一步扩展。关于本体定义,学术界一直没有统一的定论,但存在基本的共识,即本体包括:概念化、形式化、可共享、明确、描述领域知识这五大特征。这五大特征基本概括出了本体的实质内容,但随着本体理论和技术的不断拓新和发展以及本体应用的日渐成熟,对于本体的认识会更加清晰,本体定义也将会更加全面准确。
2.本体描述语言
本体作为一种共享的、对概念的形式化描述,需要用事先规定的语言对其进行描述或表示。具有代表性的本体描述语言可以划分为两类:基于谓词逻辑的本体描述语言和基于Web的本体描述语言。第一种的不足之处在于有些概念及概念关系难以用谓词逻辑准确表示,形式化表示具有局限性。基于Web的本体描述语言主要包括XOL、RDFS、SHOE、OIL、DAML+OIL和OWL。XOL是基于XML的本体交换语言,SHOE是简单HTML本体的扩展,这两种语言的形式化基础是框架。RDFS、OIL、DAML+OIL和OWL都是基于RDF的进一步扩充,继承了RDF的语法和表达能力。
随着计算机技术和互联网技术的发展,基于Web的本体描述语言逐渐成为主要本体描述语言。[9] Beniaminov E M, Lapshin V A. Levels of presentingontologies, languages, mathematical models, and ontology web-server project inWeb 2.0[J]. Automatic Documentation & Mathematical Linguistics, 2012,46(2):59-67.以下就基于Web的本体语言进行主要元素和推理机制方面的比较,采用西班牙马德里大学理工分校的评价标准和框架。[10] 李景. 主要本体表示语言的比较研究[J]. 现代图书情报技术, 2005,21(1):1-4.表1表2中,“有”表示描述语言具有此特性,“无”表示描述语言不具有此特性,“可实现”表示无强制要求但是可以实现此特性。
从表1可以看出,这6种语言基本都支持概念、多远关系和实例的定义,XOL、RDFS和SHOE缺乏函数、公理和产生式规则,对领域知识的定义不够完整。OWL和DAML+OIL对各元素基本上都支持,对领域知识的定义较为完备,说明这两种语言具有较强的知识表达能力,而OIL在此方面表现不足。
从表2可以看出,基于Web的本体描述语言多数不具备“出错处理”“过程的执行”和“限制性检验”,但都具备“单调性”“简单继承”“多重继承”。DAML+OIL语言具有大部分特征,其推理能力相对较好,而目前最常用的OWL语言,其推理能力一般。从推理机制比较可以看出,目前还没有最佳的本体描述语言,所以在构建本体时要根据应用领域选择最合适的语言。总的来说,上述几种语言各具特点,都能很好的描述本体,但这些在知识推理和表达方面都有所欠缺,没有一种语言能够同时兼备推理性和表达性。因此,在应对不同领域对知识表达和推理的不同需求时候,应注意选择合适的本体描述语言。目前,由于OWL是W3C的推荐标准,符合RDF/XML标准语法格式,并且能够与多种本体描述语言进行兼容和交互,所以应用范围很广,深受用户的青睐。2012年W3C又退出的OWL2[11] Glimm B, Horrocks I, MotikB, et al. HermiT: An OWL 2 Reasoner[J]. Journal of Automated Reasoning, 2014,53(3):245-269.是对OWL进一步完善,在OWL的语法方面进行了改进,并且提供了更强大的表达能力和逻辑推理能力,在本体构建方面和语义网中将会有更广阔的应用前景。
3.本体构建方法
本体构建方法可分为抽象方法和具体方[12]The Enerprise Ontology [EB/OL]. [2016-03-20]. http://www.aiai.ed.ac.uk/project/enterprise/。抽象方法用来说明本体构建需要哪些步骤,具有宏观指导作用。而具体方法是用于说明本体构建过程中需要哪些具体方法。本文只讨论抽象方法。
目前具有代表性的本体构建方法有骨架法[13]、IDEF5法[14]、七步法[15]、五步循环法[16]、METH-ONTOLOGY法[17]、TOVE法[18]、KACTUS法[18]、SENSUS法[19]和循环获取法[20]
[13] 余凡. 领域本体构建方法及实证研究[M]. 武汉大学出版社, 2015.
[14] Ye Y,Yang D, Jiang Z, et al. Ontology-based semantic models for supply chainmanagement[J]. International Journal of Advanced Manufacturing Technology,2008, 37(11-12):1250-1260.
[15]A Gruide to Creating Your First Ontology[EB/OL].[2016-01-20]. http://www. Protégé.Stanford.edu/publications/ontology_development/ontology101.pdf.
[16]Alexander Maedche, Steffen Staab. OntologyLearning for the Semantic Web[J]. Intelligent Systems, IEEE, 2002, 16(2):72-79.
[17] 李恒杰, 李军权, 李明. 领域本体建模方法研究[J]. 计算机工程与设计, 2008,29(2):381-384.
[18] 胡兆芹. 本体与知识组织[M]. 中国文史出版社, 2014.
[19]Ontology Creation and Use:Sensus[EB/OL] [2016-04-01].http://www.isi.edu/natural-language/re-sources/sensus.html.
骨架法、TOVE法和IDEF5法多用于企业领域本体的构建,他们的主要区别在于:骨架法是基于流程导向的构建方法,它提供了构建方法学框架;TOVE法本质上是构建本体所描述的只是逻辑模型;而IDEF5法可通过提供图表语言和细化说明来构建企业领域的本体。
METHONTOLOCY法、KACTUS法、SENSUS法和七步法,主要用于构建领域知识本体,他们的不同之处在于:METHONTOLOCY法是以化学领域的本体构建方法为基础,经过改进发展而来的,构建方法更为通用;KACTUS法主要是对已有本体的提炼、扩展、难以用于构建新的本体;SENSUS法遵循自上而下的层级结构,可操作性较强;七步法是基于本体构建工具Protégé的本体构建方法,较为实用,应用广泛。
五步循环法和循环获取发比较相似,都强调本体迭代循环,支持本体演进,但五步法是用于语义网环境下本体学习的本体构建方法,而循环获取法是基于文本的领域本体构建方法,缺乏具体的技术。
从构架方法、应用领域等低昂吗度本体构建方法进行比较[21](见表3),并总结各方法的优缺点[22](见表4)。
[21] 李景, 孟连生. 构建知识本体方法体系的比较研究[J]. 现代图书情报技术,2004(7):17-22.
[22] 尚新丽. 国外本体构建方法比较分析[J]. 图书情报工作, 2012,56(4):116-119.
从表3的比较可以看出,这些方法都有各自的适用领域,方法通用性比较差。除五步循环法和循环获取法,其他方法都不支持演进,方法的可扩展性不强。而七步法和METHONTOLOGY法成熟度较高,方法较为具体详细,被各领域学者专家广泛引用。
通过对上述方法的分析比较,我们发现,每种方法都有各自的适用领域,由于不同的领域知识概念具有不同特点,使得构建方法的适用性和通用性大大降低。并且多数方法不支持本体的循环迭代,忽视了本体演进的需要。所以,在使用构建方法时,多数学者会将方法进行适应性的改进,或者将其中两种或多种方法进行融合,然后按照改进后的方法进行本体的构建。因此在构建本体时应尽量选择合适的构建方法,并结合领域知识的特点进行改进。
4.本体构建工具
本体开发是一项庞大的工程,需要借助开发工具来完成本体的构建任务。目前常用的本体构建工具主要分为两类:可视化手工构建工具和半自动化构建工具。
可视化手工构建工具主要有protégé、Apollo、WebOnto、WebODE和OntoEdit等,这类工具通常为用户提供可视化界面,用户可以通过简单的操作完成本体的构建。
Protégé。Protégé具有图形化的用户界面,操作简单便捷,提供详细的帮助文档,支持模块化设计[24]。并且支持DAML+OIL和OWL语言,可利用RDF、RDFS和OWL等本体描述语言在系统外对本体进行编辑和修改。Protégé由于其开放源码、支持中文编辑而深受国内学者青睐。但protégé最大的缺陷在于不能批量导入数据,构建大规模本体费时费力,手工输入错误率比较高,效率较低。然而这几种构建工具都没有自动或者半自动获取知识和维护能力,所构建的本体兼容性差,在异构系统中难以复用。
[24]Rubin D L, Noy N F, Musen M A. Protégé: A Tool forManaging and Using Terminology in Radiology Applications[J]. Journal of DigitalImaging, 2007, 20(1):34-46.
半自动化构建工具。目前,尚未出现本体自动化构建工具,基于Java语言的Jena[25]
[25]Jena semantic web framework [EB/OL]. [2016-04-17].http://jena.sourceforge.net/documentation.html.也仅属于半自动本体构建工具。Jena大大提高了构建本体的效率,但还没有实现完全意义上的自动化本体构建,仍需进一步研究。
总之,目前常用的本体构建工具仍存在诸多问题,还未实现高效快捷的本体自动化构建。虽然多数工具提供了友好的图形界面和错误检查机制,避免了多数人为错误的发生,但这些工具仍需要手工输入和编辑大量的数据信息,费时费力,并且出错率较高,难以实现大规模的本体构建。因此,如何利用知识的自动获取来提高本体的构建效率,从而实现本体的自动化构建是一个很有价值的研究方向。
5.本体评价方法
随着本体研究的深入,各领域本体数量不断增多,这些本体在可靠性、准确性、科学性等方面存在较大差异。因此本体评价作为改善本体质量的手段日益受各领域专家学者的重视。通过研究相关文献[39-43]发现,主要有以下几种本体评价方法:
[39] SuomelaS, Kek, Inen J. User evaluation of ontology as query construction tool[J].Information Retrieval, 2006, 9(4):455-475.
[40] 马晓伟. 基于WEB的本体评价系统的研究与实现[D]. 中国海洋大学, 2009.
[41] 宋丹辉. 本体评价若干问题研究[J]. 图书馆学研究,2011(17):6-9.
[42] 崔运鹏. 基于本体论的农业知识管理关键技术研究[D]. 中国农业科学院, 2007.
[43] 刘宇松. 本体构建方法和开发工具研究[J]. 现代情报, 2009,29(9):17-24.
(1)用户评价法。用户评价法让用户通过投票来评价本体的优劣,但这种方法很大程度上取决于用户的主观意识,不能全面客观的对本体进行评价,因此没有得到推广使用。
(2)应用评价法。将本体使用到某个特定的应用或任务中,通过应用结果的优劣来评价本体,这种方法能够较为直观的评价所构建本体的质量。然而这种评价方法具有一定的局限性,在某些情况下,本体应用结果的优劣难以客观评判,应用此方法对本体的评价也不尽准确。
(3)语料库评价法。语料库评价法是通过测试本体与相关领域语料库的匹配程度来对本体进行评价。但这种方法是从领域覆盖度的角度评价本体,不能对本体进行综合全面的评价。
(4)专家评价法。专家评价法利用相关领域专家的专业知识对本体的质量进行评价。该方法主要用于本体学习评价,难以重复使用,无法进行大规模的本体评价,并且评价结果受限于专家的知识水平,评价结果不具有可比性。
(5)复合指标评价法。依据一定的原则标准来建立本体评价指标体系,然后对各个指标进行评价打分,并结合每个指标的权重计算最终的评价结果。该方法开放性、全面性较强,可通过指标体系进行全面评价,是最为常用的本体评价方法。但该方法的评价结果过于依赖指标体系,各个指标的科学性和指标体系的完善程度将会直接影响到评价的结果。因此,在使用该方法时筛选的指标要具有代表性,指标体系要合理完善,指标权重要适当。
(6)黄金标准评价法。将构建的本体与领域内公认较为成熟的“黄金标准”本体进行比较,利用比较结果对所构建的本体进行评价。这种方法缺陷在于难以评估作为“黄金标准”本体的质量,并且在对比评价过程中需要高水准的领域专家参与。
总的来说,这6中本体评价方法都有其可行性和适用性,但方法本身的局限性较大,跨领域的通用性较差,难以广泛使用,目前基于指标体系的评价方法是最为常用的。所以,在本体评价中,可以通过建立科学完善的指标体系对本体质量进行量化评价,在利用专家评价法等方法进行辅助评价,这使得对本体的质量评估会更加客观、全面。
6.本体的应用。
随着本体理论和技术研究的深入,本体被应用于很多领域。信息检索领域、语义Web中的应用、在异构数据集成与融合中的应用、在其他学科领域的应用如医药、教育、电子商务、农业、军事、旅游、地理信息、法律、生物等领域。
7.问题与展望
总体来讲,目前本体研究和应用还处于低水平发展阶段。虽然关于本体的研究日益增多,但还存在诸多问题,仍需要集各专家学者之智慧,进一步深入研究。
(1)本体定义。
(2)本体构建。与本体构建的相关研究很多,但还没有形成成熟的构建方法体系。构建本体需要手工操作,本体构建方法和构建工具难以匹配,本体构建不能大规模进行,难以满足语义网环境下的需求。但随着及其自动化构建技术的逐渐成熟,自动化或半自动化的国模构建本体方法必将取代手工操作。因此,适用于语义网环境的本体自动化构建方法和工具的研究应用是后续研究和应用的主要方向之一。
现在常用的本体构建工具中,只有protégé支持中文输入,可以构建中文本体,但在中文推理机制方面却表现不佳。而其他构建工具基本上都不支持中文,这给中文本体构建带来了很大的困难,严重阻碍了国内本体研究的发展。因此研发支持中文且具有强大中文推理能力的构建工具将是今后本体研究中的一个重要任务。3
(3)本体评价。本体评价对本体质量评估非常重要,但目前针对本体评价问题缺乏全面、系统、深入的研究,没有成熟统一的评价标准和评价工具,缺乏本体评价方法理论体系,本体评价的实证研究也相对较少。因此,对于本体评价方法和评价标准仍需要进一步研究。并且随着语义网的发展,基于描述逻辑构建的本体评价方法也值得深入研究。
(4)本体集成。目前,本体继承方法和本体继承工具都不是很成熟。本体的集成多是半自动化的,映射和合并的准确率不能保证,难以实现大规模的本体集成。此外,目前的本体映射方法和合并方法多是针对一对一的情况,无法进行一对多或多对多的本体映射,这使得大量本体的集成和融合变得困难。因此,在本体集成研究中,要找出高校的本体集成方法,开发相应的本体集成工具,从而提高本体的集成效率,以支持大规模的本体开发。
(5)本体自动学习。本体学习是基于统计和机器学习等技术自动地或半自动从已有资源中获取目标本体的技术。随着本体技术的不断发展,领域本体构建的需求将会越来越大,本体自动学习技术会大大提高知识获取的质量和效率。然后,目前国内外在此方面的研究仍处于起步阶段,本体学习仍是处于半自动状态。因此,本体自动学习将是下一步本体研究中的一个重要方向。
随着智能互联网、人工智能等领域的发展,本体研究也会持续升温。本体作为重要的知识组织系统,在智能化知识服务方面将会发挥重要的作用,所以,基于本体的个性化知识检索和智能Web服务将是今后重要的研究方向之一。此外,现在本题库的数量和规模都在持续增大,本体的演进和维护显得尤为重要,因此,在本体自动进化和自学习方面也需要更深层次的研究。
参考文献:王向前, 张宝隆, 李慧宗. 本体研究综述[J]. 情报杂志, 2016, 35(6):163-170.