Kettle 相关知识

Kettle 单步执行作业或者转换

./pan.sh -file=/home/www/analysis/Application/Home/dfsolapetl/transformations/member/shopnc_member.ktr -debug=debug -log=/home/www/ktrLog.log

./kitchen.sh -file=/home/www/analysis/Application/Home/dfsolapetl/jobs/ext_stage.kjb -debug=debug -log=/home/www/kjbLog.log

Kettle常用组件学习

作业:负责将[转换]组织在一起进而完成某一块工作,通常我们需要把一个大的任务分解成几个逻辑上隔离的作业,当这几个作业都完成了,也就说明这项任务完成了。
转换:定义对数据操作的容器,数据操作就是数据从输入到输出的一个过程,可以理解为比作业粒度更小一级的容器,我们将任务分解成作业,然后需要将作业分解成一个或多个转换,每个转换只完成一部分工作。

  • Generate Rows(输入->生成记录):用于生成指定数量的空行,后面的组件就是针对每一行进行操作。
  • Add sequence (转换->增加序列):用于生成序列。使用的时候要明白,不依赖数据库来生成序列的话,序列值会在每次启动转换的时候复位。另外也可以利用Get ID from Slave Server来获取序列号,不过获取的序列号并不一定按次序产生的,只能确保比上次产生的值要大。
  • 脚本->JavaScript代码:使用javascript代码对每一行记录进行编辑,可以编辑前面组件进来的字段,也可以新生成字段。
  • Sorted Merge(连接->排序合并):把多个来源的数据进行合并,并且对记录进行排序。
  • Sort rows (转换->排序记录):对记录进行排序。
  • Group By(统计->分组):分组统计。
  • SelectValues(转换->字段选择):对前面组件产生的字段进行选择、修改字段名、修改字段类型等操作。
  • Data Grid(自定义常量数据):
  • Analytic Query (统计->分析查询):把记录分组和排序之后获取前后行的数据。
  • Append streams (追加流、数据流优先级排序):控制多个源头的数据的顺序。

    • 没完,待续…

你可能感兴趣的:(数据)