转帖一篇---Noesis:一款基于本体的大气科学语义搜索工具

Noesis:一款基于本体的大气科学语义搜索工具
2007年10月23日 星期二 10:56
Ontology-Based Semantic Search Tool For Atmospheric Science
基于本体的大气科学语义搜索工具
(Rahul Ramachandran, Sunil Movva, Sara Graves and Steve Tanner)
( University of Alabama in Huntsville)
(Sunnybill推荐介绍,文章版权归作者所有,引用请注明出处)
(Origin: http://ams.confex.com/ams/pdfpapers/102272.pdf
1.简介
         Web是一个巨大的资源库,有各种网页、数据文件、元数据目录、出版物等等。按照收集元数据方式的不同,搜索工具大致分为两类:一种是Google、Alta Vista和Lycos等这类使用网络蜘蛛的工具。网络蜘蛛在网上爬行,收集网页的元数据,并对网页进行评估。这种评估是基于词频的。在标题、副标题、元数据标签中出现的词给于较高的权重。这种方法能够保证含有查询词汇的网页资源的查全率,对文档查询很有效,但对科学数据查询却不太合适。
         另一种方法是通过构建规范统元数据(形式化的元数据)的方式实现跨学科数据的查询。形式化的元数据带有标准规范,提供通用术语集,以及所提供数据值的定义和信息。这类规范包括都柏林中心原创标准(Dublin Core Initiative)、国际标准组织(ISO)标准、联邦地理数据委员会(FGDC, Federal Geographic Data Committee)等等。政府部门如美国地质调查局(USGS, U.S Geological Survey)、美国航空航天局(NASA, National Aeronautics and Space Administration)的存档地理数据规定使用FGDC规范。除了目录满足存储需要的规范之外,还需要关键词表(控制词汇表)来组成这些目录。这类词汇表有气候与森林元数据约定(CFMC,Climate and Forest(CF) Medadata Convention),以及全球变化总目录(GCMD, Global Change Master Directory)等。对这些目录的查询结果十分准确。
         衡量查询工具有两个指标:查全率和查准率。理想的查询工具是只查询人们真正想找的东西。上述两种方法都不能满足这样的要求。Web搜索工具简单易用,但返回的信息太多;基于目录的查询更准确,但太复查而且不全面。为了有效查询资源目录,用户必须熟悉规范词表,非专业人士(比如学生)很难构造正确的查询来获取理想的结果。
         这里介绍一款基于本体的语义气象科学查询工具——Noesis,可以有效解决这个问题。Noesis不单单是语义搜索引擎,而且能够通过比较资源的相关信息聚合资源,是一个资源聚合器。随后的章节将介绍Noesis的结构和功能。
2.本体与语义网络
         亚里斯多德说,本体是关于存在的科学。从机器学习(Machine Learning)人工智能(AI, Artificial Intelligent)和智能系统(Intelligent System)角度,"本体是共享概念的形式化的明确的定义"(Gruber,1993)。所以,一个本体系统必须包含概念及其使用约束的明确定义。它必须是形式化的,以便机器理解;必须是共享的,以保证对知识理解的一致性。本体有两个独特的组件:它们包含某一领域重要概念的名称。例如,生物学本体,“大象”是其中的一个概念,其成员是一种“动物”;“食草动物”也是其中概念,其成员是所有草食性和食草性的动物。同样的,“成年象”也是其中的一个概念,它的成员是年龄大于20年的大象。除了概念的定义,本体还确定了知识背景和领域约束。因此,生物学本体应该含有“成年象”至少重2000公斤、所有的“大象”可以是“非洲象”或是“印度象”、没有成员既是“食草动物”又是“食肉动物”等等这样的关系和约束。所以,本体是领域概念及其相互关系的定义。
         本体在实现语义网络中扮演十分重要的角色(Berners-Lee等,2001)。语义网络意味着机器不仅呈现数据,而且能够理解数据。网页中的概念周围带有XML标记,机器通过检查被标签中命名空间引用的本体内容来识别其含义。这样就使得机器能够在没有人工干预定额情况下更好地进行搜索。这种况下进行的搜索可以极大地减少错误命中,提高搜索命中率。
3. Noesis工具组件
         Noesis 工具的系统结构见图1。工具中有三个组件,分别描述如下:
转帖一篇---Noesis:一款基于本体的大气科学语义搜索工具_第1张图片

图1: Noesis系统结构
3.1 LEAD本体
         Noesis工具应用的本体是作为“大气发现关联环境”(LEAD, Linked Environment for Atmospheric Discovery)项目的一部分(Droegemeter等,2004;Droegemeter等,2005a; 2005b)被开发的。LEAD本体是基于SWEET(基于语义网络的地球和环境术语,Semantic Web for Earth and Environment Terminology)本体(Raskin and Pan, 2005)开发的(参见 http://hi.baidu.com/sunnybill/blog/item/c9ca19f7afebf121730eecc2.html)。SWEET本体是通过软件对Web资源的语义理解发现和使用地学数据的。SWEET包含一些列以OWL形式表示的本体(Bechhofer等,2004),既包含正交概念(空间、时间、地球领域、物理量等),又集成了一些科学知识感念(如现象、事件等)。SWEET是基于NASA的全球变化总目录(GCMD)构建的,GCMD包含大约1000个限定地学词汇,以分类形式表示。SWEET被设计成高级本体,允许创建地球科学的各个领域的具体本体补充SWEET概念。LEAD本体主要关注大气科学的相关概念。通过使用美洲气象协会(Amercian Meteorology Society)术语表中的概念,并定义它们之间的关系,将美洲气象协会术语表映射到SWEET本体。所以,LEAD本体将是大气科学领域的专门本体,是对SWEET本体中定义的概念的扩展。
         构建LEAD本体有两点原因:首先,它可以作为教学和研究的知识库,LEAD将不仅仅是静态的术语表,它还包含大气现象、参数、数据、服务以及高层概念的定义和它们之间的关系。LEAD本体的最终目标是创建一个连接这些高级概念的顶层本体。有了这个本体,搜索“中气旋(Mesocyclone)”这个概念就能够发现这个现象有一个“旋涡状态(Vorticity)”物理量定义,数据挖掘服务就能够应用这个字段来扩展“中气旋(Mesocyclone)”。
         第二个原因是LEAD本体支持语义搜索。本体的应用可以使Noesis这样的工具扩展对元数据目录和其他Web资源的搜索能力,而不仅仅是基于关键字的搜索。
3.2 本体推理服务
          本体推理服务(OIS, Ontology Inference Severce)是推理引擎的一个SOAP协议Web服务接口。构建在Apache Axis的SOAP引擎之上。后台所用的推理引擎是Pellet(Grau等,2004)。Pellet是一个基于tableaux算法的OWL描述逻辑推理机。推理机与LEAD本体一起预装,能够对本体进行T-BOX和A-BOX查询。T-BOX查询处理概念的细泛化关系和同义关系;A-BOX查询查找符合条件的概念的实例,并能基于属性过滤。所有发到OIS的请求都被翻译成一个或多个查询给推理机。本体推理服务(OIS)描述逻辑推理接口(DIG, Discription Logic Resoner Interface)与推理机交互。DIG接口是以HTTP接口方式访问描述逻辑推理机的标准。查询的结果通过该接口返回给OIS。OIS允许使用标准Web服务协议与其他系统(如LEAD数据库子系统查询服务)松散地连接集成。在Noesis中,OIS主要与智能搜索代理通讯。
3.3 智能搜索代理(Smart Search Broker)   
         智能搜索代理主要负责管理和协调来自客户端、OIS和其他分布式资源的用户请求。如果用户选择查询的词汇,智能代理就用这个词汇列表在不同的分布式资源上进行查询。这些资源可以使Google,元数据目录,包括LEAD资源目录、SURA滨海观测项目(SCOOP)目录以及地球系统教育数字图书馆(DLESE, Digital Library for Earth System Education)目录这类教育资源等,也可以是其它资源。
4. Noesis应用实例
         这里列出两个Noesis工具的用户使用实例。
4.1 细化搜索实例
          Noesis可以浏览本体中的概念体系。浏览时,用户可以本体中任意移动。如果用户不知道某个物理参数的准确名称,他可以提供高层的概念来查找。用户就可以从一般化概念开始,找到理想的专门主题的信息。例如,用于输入查询词“压力(Pressure)”,Noesis工具就可以通过本体找到“静水压Hydrostatic Pressure”、“总压力Total Pressure”等术语词汇,并把这些结果返回给用户选择。Noesis工具就可以根据用户选择的词汇列表,在分布式资源上(包括Google, DLESE等)查找,并把查询结果进行聚合,返回给用户。该实例参见图2a。
转帖一篇---Noesis:一款基于本体的大气科学语义搜索工具_第2张图片

图2a: Noesis工具使用实例
4.2 同义搜索实例
              Noesis工具好可以搜索同义术语。例如,在元数据目录资源中查询“Precipitation(降水)”,就找不到目录中的“Rainfall(降水)”字段中的值。Noesis工具可以利用本体可以解决这个问题。在返回细泛化概念的同时,系统也给用户返回同义概念供用户选择。系统可以根据用户的选择在分布式资源上查询,并将结果进行聚合,返回该用户。
5. 小结及进一步的工作
           本文所述Noesis工具代表了下一代利用领域本体技术的专业搜索和资源聚合工具。领域本体可以帮助用户和机器提高查询结果的查全率和查准率。Noesis工具在地学搜索和教学中也可以发挥重要作用。它不仅利用本体提示用户修正查询词汇,还可以查询对用户有用的不同资源。这些资源完全可以包括网页、相关教育资源、数据库、相关出版物等等。最初Noesis工具使用的LEAD本体是有限的,随着LEAD本体的不断进化,新的LEAD将会用于Noesis工具。目前的Noesis工具只能搜索Web网页(通过Google)以及DLESE目录中的教育资源。将LEAD于其他目录资源连接允许用户查找相关数据库的工作正在进行。
           尽管目前版本的Noesis主要关注大气科学,工具本身可以应用于不同的领域,只需要配置不同的领域本体,搜索不同的分布式资源。
6. 致谢
           LEAD项目得到了国家科学基金(National Science Foundation)资助,协议号为:ATM-0331594, ATM-0331591, ATM-0331574, ATM-0331480, ATM-0331579, ATM03-31586, ATM-0331587, and ATM-0331578。
7. 参考文献
[1]        Bechhofer, S., F. v. Harmelen, J. Hendler, I. Horrocks, D.L. McGuinness, P. F. Patel-Schneider, and L. A.Stein, 2004: OWL Web Ontology Language Reference.
[2]        Berners-Lee, T., J. Hendler, and O. Lassila, 2001: The Semantic Web. Scientific American , 284, 34-43.
[3]        Droegemeier, K., V. Chandrasekar, R. Clark, D. Gannon, S. Graves, E. Joseph, M. Ramamurthy, R.Wilhelmson, K. Brewster, B. Domenico, T. Leyton, V. Morris, D. Murray, B. Plale,R. Ramachandran, D.Reed, J. Rushing, D. Weber, A. Wilson, M. Xue, and S. Yalda, 2004: Linked Environment for Atmospheric Discovery (LEAD): A Cyberinfrastructure for Mesocyclone Meteorology Research and Education. Interactive Information and Processing Systems (IIPS) , Seattle, WA, American Meteorological Society.
[4]        Droegemeier, K., V. Chandrasekar, R. D. Clark, D. Gannon, S. Graves, E. Joseph, M. K. Ramamurthy, B. Wilhelmson, K. Brewster, B. Domenico, T. Leyton, D. V. R. Morris, D. R. Murray, B. Plale, R. Ramachandran, D. Reed, J. Rushing, D. Weber, A. Wilson, M. Xue, and S. Yalda, 2005a: Linked Environments for Atmospheric Discovery (LEAD): Architecture, Technology Road Map and Deployment Strategy. Joint Session on Cyberinfrastructure to support atmospheric and Oceanic Education: Examples and strategies, AMS Annual Meeting , San Diego CA.
[5]        Droegemeier, K. K., D. Gannon, D. Reed, B. Plale, J. Alameda, T. Baltzer, K. Brewster, R. Clark, B. Domenico, S. Graves, E. Joseph, V. Morris, D. Murray, R. Ramachandran, M. Ramamurthy, L. Ramakrishnan, J. Rushing, D. Weber, R. Wilhelmson, A. Wilson, M. Xue, and S. Yalda, 2005b: Service-Oriented Environments in Research and Education for Dynamically Interacting with Mesoscale Weather. IEEE Computing in Science & Engineering , 7, 24-32.
[6]        Grau, B. C., B. Parsia, and E. Sirin, 2004: Tableau Algorithms for E-Connections of Description Logics.
[7]        Gruber, T. R., 1993: A Translation Approach to Portable Ontology Specifications. Knowledge Acquisition, , 5, 199-220.
[8]       Raskin, R. G. and M. J. Pan, 2005: Knowledge representation in the semantic web for Earth and environmental terminology (SWEET). Computers & Geosciences , 31, 1119-1125.
转帖一篇---Noesis:一款基于本体的大气科学语义搜索工具_第3张图片
图2b: Noesis使用实例
转帖一篇---Noesis:一款基于本体的大气科学语义搜索工具_第4张图片
图2c: Noesis使用实例
转帖一篇---Noesis:一款基于本体的大气科学语义搜索工具_第5张图片
图2d: Noesis使用实例
转帖一篇---Noesis:一款基于本体的大气科学语义搜索工具_第6张图片
图2e: Noesis使用实例
后记:
本文译稿未经效审,发现错误请反馈到留言中,谢谢!

你可能感兴趣的:(数据结构,Web,搜索引擎,网络应用,网络协议)