大数据管理:数据集成的技术、方法与最佳实践 读书笔记五之实时数据集成

实时数据集成


为什么需要实时数据集成
对于大多数据集成需求来说,因为要隔一夜,所以批处理的数据移动方式可能不可接受。一笔业务交易发生
之后,要到第二天才能看到,这是难以接受的。同样不能被接受的是某个客户和组织新设立了一个账户之后,却
不能够在当天办理业务。
实时数据交互过程通常会对在一次交互中所能包含的数据的数量或者大小有所限制。在一次实时数据交互中
所能处理的数据块称为一个“消息”。另外,批处理数据交互中对数据大小几乎没有任何限制。而且,每个实时
交互消息都必须穿过在批处理集成中所描述的安全层次。由于每个小数据集或者消息都必须经过这么处理,所以
实时移动数据的方式对大量的数据处理来说,其速度要慢于批处理方式。在某些应用系统中,批处理数据集成的
大量数据处理能力是有优势的,因此会采用批处理的方式来移动数据。但是,如今大多数数据集成过程都以一种
实时或者接近实时的方式运行。
在应用系统之间的实时数据交互通常称为接口,其含义与应用系统之间的批处理交互一样。组织的应用系统
组合管理,这即使对于一个拥有上百个活动应用的组织来说也可能是让人望而却步的。有时候,应用系统之间接
口的复杂性可能会更加让人崩溃。
处理实时数据集成所用到的技术要比批处理数据集成稍微复杂一些。一些基本步骤,如抽取、转换,以及加
载依然存在。当然,它们是以一种实时的方式在业务交易层面进行处理。对应用系统之间或者“点对点”的实时
接口进行管理,相对于一个应用组合之内的所有必要交互的管理来说要稍微低效些,这在本章中会进行解释。因
此,为了管理接口,每个组织拥有一个企业级数据集成架构和管理能力就显得相当重要。否则,事情很快就会变
得不可思议的复杂。




你可能感兴趣的:(大数据管理:数据集成的技术、方法与最佳实践 读书笔记五之实时数据集成)