所有我们目前学的kettle转换步骤总结

一、输入类

1.文本文件输入

2.表输入

 

3.CSV文件输入

 4.JSON input

所有我们目前学的kettle转换步骤总结_第1张图片

 所有我们目前学的kettle转换步骤总结_第2张图片

.json文件输入后,这个控件能够解析.json文件,解析出它的json最外层结构。

5.MongoDB input

MongoDB数据库作为数据输入源

6.Get data from XML

所有我们目前学的kettle转换步骤总结_第3张图片

所有我们目前学的kettle转换步骤总结_第4张图片

7.一种特殊情况:

(自定义常量数据,作为后续的输入)

所有我们目前学的kettle转换步骤总结_第5张图片

8.HTTP client

 所有我们目前学的kettle转换步骤总结_第6张图片

对指定的url发起http请求,并将http响应结果存储到result中。

二、输出类

1.表输出

表输出,:将流中的字段,和表中的字段做个映射,将流中数据写入到表中。

2.插入/更新

所有我们目前学的kettle转换步骤总结_第7张图片

更新数据表,可以选择这个控件。

指定查询的关键字,指定更新的字段。

 

 

三、条件类

1.过滤记录

通过添加一些条件,给数据进行分流,满足条件的,进入到发送true的步骤。不满足条件的,进入到发送False的步骤。

 

2.数据检验

所有我们目前学的kettle转换步骤总结_第8张图片

能够给流中的字段,添加一些检验条件。满足检验条件才能做后续的操作之类的。

四、合并类

1.排序合并

两个功能:

排序:按照某字段

合并:将两个数据流进行合并(要保证两个数据流中数据类型一致,防止报错)

2. 合并记录

所有我们目前学的kettle转换步骤总结_第9张图片

能够根据关键字,合并两个数据流中的数据。

主要是将两个数据源(旧数据源、新数据源)进行合并,标志字段flagfield主要是将每条数据进行标记,新数据源的数据会标记为new,旧数据源的数据会标记为deleted,若新、旧数据源中存在相同的关键字段设置的数据,则两个数据源进行合并后只会保存从新数据源中获取的数据,并以identical进行标记。

3.记录集连接 

 

所有我们目前学的kettle转换步骤总结_第10张图片

 指定连接类型,INNER、LEFT OUTER、RIGHT OUTER、FULL OUTER。

类似数据库的连接操作,指定连接字段,连接类型,对两个数据流中的数据进行连接。

 

五、字段操作类

 1.字段选择控件:

所有我们目前学的kettle转换步骤总结_第11张图片

能够用来选择我们想要保留的字段,移除我们不想要的字段,同时修改保留字段的元数据。

2.增加序列

新增一列,从某个数字开始,按照step的间隔,可以控制最大值

 3.计算器

 可以生成一些新字段,通过目前流中已有的字段的简单的加减乘除运算。

 所有我们目前学的kettle转换步骤总结_第12张图片

计算类型很多,还有很多日期处理的。

4.替换NULL值

所有我们目前学的kettle转换步骤总结_第13张图片

所有我们目前学的kettle转换步骤总结_第14张图片

 指定字段,指定该字段为NULL值的,全部替换为相应的值,比如图中的,170.

5. Java代码 

 所有我们目前学的kettle转换步骤总结_第15张图片

 用Java程序,处理上个数据流中的数据

6.JavaScript代码

 所有我们目前学的kettle转换步骤总结_第16张图片

 通过js代码,将数据流中的字段做某些转换,或者生成一些新的字段。

六、字段中值的操作类

1.设置值为NULL

 所有我们目前学的kettle转换步骤总结_第17张图片

将指定的字段,指定的字段为某些值时,修改这些值为NULL

2.值映射

所有我们目前学的kettle转换步骤总结_第18张图片

将数据流中的指定字段,指定源值,然后替换为目标值。

七、空操作

1. 空操作

 

 就是为了数据分流后,后面能有一些步骤能够接收到这些数据流。或者不是分流的情况下,也可以用。

八、其他

1.唯一行(哈希值)

 所有我们目前学的kettle转换步骤总结_第19张图片

 指定要计算哈希值的,相关的列。

数据记录,去重专用。

你可能感兴趣的:(数据仓库和ETL,html,kettle)