Web 数据的动态融合(Dynamic Fusion of Web Data 的文章进行翻译)

http://www.cnblogs.com/penny/archive/2008/07/07/1237520.html

Web 数据的动态融合

摘要:Mashups 例证了一个类工作流的方法,它能够动态的集成来自不同web资源的数据和服务。这种集成式的工作流是以已有的服务为基础,用于web查询、实体查询、数据库查询和信息抽取,从而完成其他数据集成方法。关键问题在于集成工作流执行的有效性以及查询和匹配的及时性。我们将Mashup 数据集成和其他方法联系起来,列出主要问题和最初的原型设计的全部特征。

1.       绪论

      融合不同web资源数据的需求量正迅速增长。显著的实例是:近来,整合来自不同资源和服务的内容的Mashup的应用在增多。Mashup应用是交互的,能够灵活的运用web2.0用户接口。Mashups的内容整合是动态的,比如,它是按需执行操作,它是基于具体的用户输入。广泛的使用Mashups推动了多数发展框架的有效性,如,Google Web Toolkit。它推动了web APIs的发展,用于简单的访问大量网站,与此同时,搜索引擎或数据文件的信息抽取工具也在迅速增多。许多工具也支持可视化的接口,在不使用程序的情况下完成简单的Mashups指令,如:Yahoo pipes, OpenKapow, Mashmaker[2]

      它有着迅速发展的潜力,聚合不同资源的web数据,成为一种具有较高吸引力的方法。因为传统的、基于模式的数据集成,需要一种更高级的处理方式来解决语义异构性[3]面对大量资源,这种处理方式需要确定一个全球化的、准确的模式映射,限制了基于模式的方法的可扩展性。另一方面,Web搜索引擎是针对大部分网站,但是对隐藏的web的结构化数据资源缺乏足够的支持吗?正在研究一些能够更好的提供集成的方法,这些方法能够访问非结构化和结构化的web资源,同时保证了这些方法也具有很好的扩展性。例如,MetaQuerier为大量隐藏的web的结构化web资源提供统一的实体搜索接口[1]PayGo 目的在于提供web范围、域名分解去访问结构化的资源[4]。它试着聚合相关联的模式在一起,通过改变相关联资源上的关键字查询为结构化的查询,从而改进查询结果。这种查询方法丢失了对非均匀的查询结果的后处理,只是一种相同对象的在线融合。

      Mashups例证了一种更加具有编程性、类工作流的集成方法,完善了基于查询和搜索的数据集成的方法。事实上,在很大程度上,Mashups的理念是对已有服务的复用和聚合。然而,目前的Mashups大部分非常简单,但是不能充分利用类工作流的数据集成的潜能,如,企业应用的需要或者分析更大的web数据的集合。因此,我们希望看到一种功效强大的类工作流的数据聚合方法,这种方法能够支持Mashups的特征,如web2.0 GUIs,支持复用和快速开发。

      提供一种能够接受各种挑战的方法,这种方法支持Mashups架构的定义,定义分为三个层:数据层、应用层和显示层。同时,一种有效的工作流和编程模型需要支持已有的web服务和支持一般服务或操作的执行,支持信息提取,支持实体查询,支持数据库查询和对象匹配。应该列出一组可用的服务和数据资源,类似于提议的使用元数据存储,从语义上描述这组可用的服务和数据资源[3]。交互的Mashups的一个限定性因素是执行时间。因此,在较短的时间内,技术需要处理大量复杂的集成任务,如,相关查询、搜索、较大数据集的对象匹配。

      在下一部分,我们讨论第一个类工作流动态数据聚合模型的特征。

2.       iFuice的信息融合

      目前,我们正在更新iFuice系统,主要是针对其动态性和类Mashup数据聚合[6][7]。在[7]中,对于DBLP发布的作者和地址的列表中,我们的报告显示了一个引用数量,这个引用数量是在一个按要求集成的GS上通过实现复杂的Mashup而产生的。在这里,我们简要的说明一下设计iFuice的一些关键技术,这些技术让我们明白,它在类Mashup应用方面,对动态数据聚合的适合性。

1.        类工作流的数据聚合和基于运算符的编程模型。iFuice提供了一个高层次的脚本语言去定义工作流或Mashups集成。这类语言是由有效的基本运算符组成,这些运算符能够应用于不同的数据源和服务。例如,将一个查询运算符视为输入一个查询服务和一个查询规范的id。大部分运算符被设置为定向的,如,他们被用于一个任意组的输出对象和产生一组结果集。中间的结果以变量的形式存储,被其他运算符使用。有些用于集操作的运算符(如,并集、交集、差集)和数据转换(如,融合、聚集)的运算符都能用于后处理查询结果。

2.         实例层映射的应用。iFuice利用实例层映射来描述实体类型的实例间的关系。这种映射能够将不同资源的实例关联起来,如,作者或不同的目录资源的出版物的一致性。这种映射也经常作为超链接存在。此外,对于结构化的资源,我们支持实例层关联,这些关联是介于给予的资源的对象之间,如,作者和他的出版物的相互关联。这种实例层映射能够有效的将相同对象融合在一起,即使在缺乏映射模式情况下,也可以将相同对象融合在一起。实现的这类映射,支持不同的集成工作流和实例的复用。

3.         支持结构化和非结构化的数据资源。通过提供合适的访问接口,来支持服务结构化和非结构化的web资源。可以通过基于实体ids,或者使用结构化查询或关键字查询来访问每个资源。在此基础上,我们能够使存在的实体搜索引擎,或一般的搜索引擎保持平衡,去复用他们从其他资源聚集的结果。

4.         元数据存储。有效的数据资源和服务被记录在存储器里,并且被指定实体类型。如,作者,出版物。同时,维持所有的有效的映射和他们的语义映射类型(如,作者的出版物)。实体和映射类型是所谓的域名模型的一部分,这种域名模型可以随着需求不断的扩展。一个域名模型是一个比所有数据库模式还高级的抽象(本体)层,它帮助定位语义上相关的资源和服务。

5.         迭代查询策略。已有的搜索引擎,需要满足更多复杂的集成任务的查询,用于维持足够数量的关系型结果实体,所以,iFuice允许迭代的限制查询结果。用户可以有效地控制下一步查询的执行。OCS应用[7]对实体搜索引擎Google Scholar使用限制性查询,来获取对一组出版物的引用。中间结果展现给用户,同时,系统执行其他的查询去完成结果。使用这种类查询策略允许快速生成近似结果,这些结果能够根据需要变化而变化。

6.         即时性对象匹配。动态数据融合需要从不同的资源匹配一致性的对象,及时的融合他们的属性值。MOMA框架[8]提供了一系列匹配策略,可以任意选择其中的策略。尤其是,已有映射的复用能有助于实现一种快速对象匹配。

 

      我们对动态的类Mashup数据融合的研究刚刚开始,仍存在一些复杂的研究问题,比如,迭代查询策略的自动产生和即时性对象匹配方法,仍然需要进一步讨论研究。

参考文献:

[1]Toward Large Scale Integration: Building a MetaQuerier over Database on the Web

[2]Mashups for the Masses

[3] From Databases to Dataspaces: a New Abstraction for Information Management

[4] Web-scale Data Integration: You can only afford to Pay As You Go

[5] Object-level Vertical Search.IIWeb

[6] iFuice – Information Fusion utilizing Instance Correspondences and Peer Mappings

[7] Data Integration Support for Mashups. IIWeb

[8] MOMA-A Mapping-based Object Matching System

 

你可能感兴趣的:(dynamic)