Kettle spoon

ETL

  1. ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据
  2. ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。
  3. ETL工具:Kettle spoon

Kettle spoon

1. 转换:将数据流经过一系列操作传输到目标数据源

  1. 转换的创建:

新建一个转换

1新建空白转换

文件—>新建—>转换 :新建一个空白的转换,ctrl+s保存该转换,命名为标准表的表名;

2添加数据库连接
Kettle spoon_第1张图片

在主对象树中,双击DB连接,或右击DB连接,选择新建数据库连接,打开数据库连接对话框:
Kettle spoon_第2张图片

其中Oracle数据库连接中的数据表空间,索引表空间两项不需要填。其余参数必填,填好之后点测试,检测是否能正确连接,连接成功后,点确认,便保存了当前连接。

其实,可以随时在需要的时候建立数据库连接,而不必刚开始就添加。

3添加需要的step
Kettle spoon_第3张图片

在核心对象的各个分组中,找到需要的step,双击,或者拖拽到右侧设计界面,即可添加step到当前转换中。

  1. 转换的使用
    点开左侧栏的输入,找到表输入,并用鼠标把表输入拖向右边空白区域。

Kettle spoon_第4张图片

双击拖进来的表输入,编辑表输入里面的信息。
Kettle spoon_第5张图片

点开左侧栏的输出,找到插入/更新,并用鼠标把插入/更新拖向右边空白区域。
Kettle spoon_第6张图片

摁住shift键不放,鼠标点击表输入,然后拖向旁边的插入/更新,这样就把两个动作连接起来了。

Kettle spoon_第7张图片

双击插入/更新,编辑插入/更新里面的信息。最后把该转换保存,这里保存成test.ktr。
Kettle spoon_第8张图片

3.点击运行就可以转换了
Kettle spoon_第9张图片Kettle spoon_第10张图片

2. 作业:

  1. Kettle spoon_第11张图片

3.Kettle作业与转换如何配合使用:

1、一个作业相当于一个主要任务项,在这个主线中可以调用其它若干个转换,每个转换中可以从作业这个主线中获取数据,然后将数据进行相应的处理操作,再将数据传递给作业主线,也可以在转换中单独获取数据------处理数据------输出数据;

2、并且如果对于需要设置变量的情况下,一般也是需要用到作业与转换的配合使用,因为变量在当前线中设置,不能再当前线中获取,需要到下一个线中才能够获取;

3、一个任务只能够有一个主作业,但是可以有多个子作业,主作业中可以调用转换,也可以调用子作业,具体是调用转换还是调用子作业,需要根据不同的需求,进行不同的定制;

PS:更加详细的描述

你可能感兴趣的:(ETL)