kettle介绍

1、 kettle

翻译成中文是“水壶”的意思。

kettle的创始人的解释:想让数据从不同的地方放在一个“壶”里面,然后通过统计的格式,用数据流的方式出来。

kettle本身是一个缩写,每个字母分别代表kettle E. T. T. L Environment
其中:
E: Extraction

T: Transformation
T: Transportation
L: Loading

Pentaho Data Integration(kettle)是一款开源的ETL工具,用来完成数据的抽取、清洗、转换和加载等方面的工作。

2、 ETL简单介绍

2.1抽取(Extraction)
抽取过程需要连接到不同的数据源(数据库、文本文件、web等), 为随后的步骤提供数据。这一部分看上去简单而琐碎,实际上它是 ETL 解决方案的成功实施的一个主要障碍。

2.2转换(Transform)
任何对数据的处理过程都是转换。
这些处理过程通常包括(但不限于)下面一些操作:
(1)移动数据
(2)根据规则验证数据
(3)数据内容和数据结构的修改
(4)将多个数据源的数据集成
(5)根据处理后的数据计算派生值和聚集值

加载(Load)
将数据加载到目标系统的所有操作。
要考虑数据加载的性能,SQL方式加载、数据流加载。

BI架构图


红色部分为ETL。

从业务系统里面抽取,原样放进数据缓冲区,经过清洗和转换,然后根据建好的业务维度加载到数据仓库或数据集市中。

你可能感兴趣的:(Kettle)