数据集成之数据联邦(data federation)

数据联邦(data federation

数据联邦的概念

数据联邦(也有翻译成数据联合)提供了一种创建对数据消费者(应用)角度看数据集成视图,数据逻辑看上去存在一个位置,但实际的物理位置却可能在多个数据源中。

也可以说,数据联邦技术提供了一种为数据提供抽象的数据接口的能力。这些多个数据源组成的虚拟视图可以使数据消费者(应用)不需要知道数据的物理位置、数据结构和保存方式。

以上两个概念虚拟集成视图和抽象数据接口对解决很多数据集成需求是很有用的方式,这也是驱动数据联邦技术发展的重要动力。

 

很多时候,我们一提到数据集成就想到ETL(这里的ETL指的是批量方式的ETL,因为数据联邦的处理也存在逻辑的ETL过程),其实ETL也只是数据集成的一种方式,不是包治百病的良药,我们在为客户设计解决方案时,一定要从需求出发来为客户设计解决方案。

很多时候,可能是针对不同场景,提出多种方式相结合的方案。

数据联邦(data federation)的缺点

由于访问数据是通过一个“联邦”视图(federation view来实现的,视图是实时的,因此数据转换是一个重点,但是却无法解决数据质量和性能问题。随着企业数据量的增大,性能问题是所有数据集成(Data Integration tools)都面临的问题,但是由于设计思路的缺陷,数据联邦在这方面虽有很大进展,但是也无法和另外一些数据集成技术相比。数据质量管控(data quality assurance)意味着数据规则(data rule)加载、数据检验(data validation)执行,这也不是“联邦”视图(federation view解决现实数据集成问题的优先考虑的因素。

数据联邦(data federation)的缺点制约了它在数据集成领域的适用性,虽然很多领域都使用了数据联邦(data federation)技术,但是在关键的核心业务系统它的应用非常少。

 

为什么采用数据联邦(data federation)技术

虽然有上述缺点,但数据联邦(data federation)技术依然为很多企业所采用,这主要是因为与其它数据集成技术相比,它的明显优势获取数据的方便性和实时性。很多企业都在实践SOASOA的灵活性和敏捷性要求组织提供数据要有更少的时延。以前的利用批量任务或者ETL的方式创建数据集市和数据仓库的方式由于实时性不好,在很多应用场景中被数据联邦技术所取代。

 

数据联邦的一些应用场景

1.       BI的数据处理过程:一些ETL工具或者ETL的开发人员希望通过一个中间层来加载数据,而不需要了解过多的复杂的不同数据源的数据结构,数据联邦简化了实施和开发的过程。

2.       数据模型的变化:一些企业由于业务发展数据模型处于不断变化改进的阶段,由于数据联邦没有实际数据,因此可以很快的适应这样的变化。

3.       SOA场景下对于数据服务的要求:数据联邦可以很快速的开发抽象的数据服务接口。

SOA场景下的数据联邦(转自IBM developer work

 

 数据集成之数据联邦(data federation)_第1张图片

4.       提供统一的主数据视图:随着企业主数据管理的开始和发展,数据联邦提供了一种比较简便的集成解决方法。

  

数据联邦的适用场景

1.       对及时投入生产要求较高的应用,数据联邦允许应用直接访问数据,而不需要耗时较长的数据架构的调整。

2.       如果数据安全性要求较高的企业,不允许对数据进行复制和备份的场景下,数据联邦是很好的解决方案

3.       要求实时访问的。数据可以是结构化的,也可以是非结构化的。

4.       在数据经常变换的环境下,数据联邦是灵活性和扩展性高的解决方案。比如在一个schema演进的场景下,由于没有冗余和备份的数据,在数据联邦中schema的改变影响很小。

 

数据联邦的不适用场景(或者风险较大的场景)

1.       集成场景中包含复杂数据转换的,会由于数据转换会减低响应时间而带来负面的影响。

2.       真实数据源服务器会的负载会有所增加。联邦服务器会把联邦视图分解为多个子操作,这些子操作会传送给数据源服务器,这些子操作越复杂这些源服务器的负载越大。

3.       如果数据结果集非常大时,性能会降低。

4.       对可用性要求较高的应用,由于数据联邦依赖于多个数据源,而这些数据源的高可用性是数据联邦技术无法保证的。

 

数据联邦已实施项目特点

使用简单的有限的数据源,数据结果集不大,只读性的数据访问,数据质量要求简单。

 

数据联邦实施要考虑的问题

其实也是数据集成项目都必须要考虑的问题,只不过基于数据联邦的实施的特点,解决问题方式要有所不同,在这里只做简单罗列,不相信说明了。

数据安全,数据延时,数据的有效性,数据的一致性和质量,数据的可用性,数据模型改变的影响,性能,数据访问量,事务等。

数据联邦的产品

 

比较典型的产品是BEA  AquaLogic Data Services PlatformIBM — Federation Server

Red Hat — JBoss (via MetaMatrix)Software AG— Enterprise Information IntegrationSybase— Data Federation

 

编者说明:本文章是在笔者为一家电信企业做数据集成方案设计是所写,也是对自己研究的资料的一个总结,希望对做这方面研究和工作的读者有帮助。另外由于篇幅原因,有很多题目没有在这里展开。另外声明:部分内容是从IBM developerworkGartner的文章转过来的。

 

你可能感兴趣的:(数据结构,schema,服务器,IBM,validation,SOA)