数据整合(Data Consolidation)的概念
数据整合是把在不同数据源的数据收集、整理、清洗,转换后(有点像ETL)加载到一个新的数据源,为数据消费者提供统一数据视图的数据集成方式。
数据整合(data consolidation)和数据集成(data integration)的区别在于:数据整合是单纯的数据整合,而数据集成的涵盖范围要比数据整合要广。另外由于国内翻译的原因,很多时候数据整合和数据集成的概念有些混淆
数据整合和数据联邦的区别在于,数据整合需要一个实际的物理数据源来作为统一数据视图的数据来源。
数据整合的优点
1. 底层数据结构的透明:为数据访问(消费应用)提供了统一的接口,消费应用无需知道:数据在哪里保存;源数据库支持那种方式的访问(XQuery,SQL);数据的物理结构;网络协议等。
2. 性能和扩展性:数据整合把数据集成和数据访问分成了两个过程,因此访问时数据已经处于准备好的状态.
3. 提供真正的单一数据视图,数据视图data view这个概念大家很容易理解,数据整合(Data Consolidation)的优势是经过了数据校验和数据清理,你看到的数据更加真实,准确,可靠
4. 可重用性好:由于有了实际的物理存储,数据可以为各种应用提供可重用的数据视图,而不用担心底层实际的数据源的可用性。
5. 数据管控能力加强: 管控是SOA里面重要的概念。数据整合(Data Consolidation)的优势是数据规则可以在数据加载,转换中实施,保证了数据管控。
数据整合的缺点
1. 由于有了ETL的过程,很难保证数据的实时性。
2. 另外数据的物理备份,对于实施成本也相应的增加了不少。
使用场景:
1. 传统的数据集市和数据仓库
2. SOA下的使用场景一。通过数据整合后的平台提供DATA SERVICE. 图片来自IBM DEVELOPERWORKS
3. SOA下的使用场景二。在数据整合的过程中提供数据服务。图片来自IBM DEVELOPERWORKS
4. SOA下的使用场景三. 数据整合平台利用已有的数据服务提取数据。这个场景比较有意思,我多写几句。图片来自IBM DEVELOPERWORKS
这种场景下类似pub/sub模式,一旦底层的数据源数据有所变化,它会主动通知数据整合平台,数据处理也变得简单,只处理变化部分的数据,使得数据视图变得准实时和数据处理过程更加高效。