你不知道的Kettle学习笔记2--kettle的常用操作

(一)转换和作业
kettle的Spoon设计器用来设计转换(Transformation)和作业(Job)。
(1)转换
转换主要是针对数据的各种处理,一个转换里可以包含多个步骤(Step)。

(2)作业
作业是比转换更高一级的处理流程,一个作业里包括多个作业项(Job Entry),一个作业项代表了一 项工作,转换也是一个作业项。

(二)保存作业
用户通过Spoon创建的转换、作业、数据库连接等可以保存在资源库和XML文件中。
(1)转换文件以ktr为扩展名,作业文件以kjb为扩展名。
(2)资源库可以是各种常见的数据库。可以在Spoon中自动创建资源库,资源库默认用户名和密码是admin/admin。

(三)输入步骤
输入步骤用来从外部获取数据,可以获取的数据源包括,文本文件(txt,csv,xml,json),数据库,Excel文件等桌面文件,自定义的数据等。对特殊数据源和应用需求可以自定义输入插件。

以Excel文件“联系方式”输入为例
1、准备要输入Excel文件。Excel文件中第一行必须为标题,数据紧跟在标题后面。
你不知道的Kettle学习笔记2--kettle的常用操作_第1张图片

2、在Spoon中新建一个转换作业并命名为“Excel文件输入”
你不知道的Kettle学习笔记2--kettle的常用操作_第2张图片

3、插入“Excel输入”控件
你不知道的Kettle学习笔记2--kettle的常用操作_第3张图片

4、右击“Excel输入”控件进行“编辑步骤”
你不知道的Kettle学习笔记2--kettle的常用操作_第4张图片

5、“浏览”找出“联系方式”文件,并添加。在表格类型( 引擎)中选择:Exxel2007 XLSX(Apache POI)
你不知道的Kettle学习笔记2--kettle的常用操作_第5张图片

6、在“字段”中“获取来自头部数据的字段”。
你不知道的Kettle学习笔记2--kettle的常用操作_第6张图片

7、点中“眼睛”就可以预览了。
你不知道的Kettle学习笔记2--kettle的常用操作_第7张图片

(四)转换步骤
转换类步骤是对数据进行各种形式转换所用到的步骤。

以“生成随机数进行字段选择”为例
1、设置随机数的步骤
你不知道的Kettle学习笔记2--kettle的常用操作_第8张图片

2、改变随机数生成的个数
你不知道的Kettle学习笔记2--kettle的常用操作_第9张图片

3、预览生产的10个随机数
你不知道的Kettle学习笔记2--kettle的常用操作_第10张图片

4、添加常量并设置其步骤
你不知道的Kettle学习笔记2--kettle的常用操作_第11张图片

5、添加计算器求随机数(R)与常量(C)的和。
你不知道的Kettle学习笔记2--kettle的常用操作_第12张图片

6、添加文本文件输出,确定结果的存储位置。
你不知道的Kettle学习笔记2--kettle的常用操作_第13张图片

7、执行转换。
你不知道的Kettle学习笔记2--kettle的常用操作_第14张图片

(五)流程步骤
流程步骤是用来控制数据流的步骤。一般不对数据进行操作,只是控制数据流。

以“过滤步骤”为例
1、通过计算器把随机数(R)和常量(C)相乘等到 R*C
你不知道的Kettle学习笔记2--kettle的常用操作_第15张图片

2、添加“过滤记录”,实现按条件对数据进行筛选。把符合要求(大于50)的进行输出,不符合要求(小于等于50)的不进行任何操作(空操作)。
你不知道的Kettle学习笔记2--kettle的常用操作_第16张图片

3、执行转换
你不知道的Kettle学习笔记2--kettle的常用操作_第17张图片

(六)连接步骤
连接步骤用来将不同数据集连接到一起。

以“学生信息”和“学生成绩”连接为例
你不知道的Kettle学习笔记2--kettle的常用操作_第18张图片

你不知道的Kettle学习笔记2--kettle的常用操作_第19张图片

1、通过“Excel输入”分别把“学生信息”和“学生成绩”输入。
你不知道的Kettle学习笔记2--kettle的常用操作_第20张图片

你不知道的Kettle学习笔记2--kettle的常用操作_第21张图片

2、添加“记录集连接”并进行步骤设置。
你不知道的Kettle学习笔记2--kettle的常用操作_第22张图片

3、执行连接转换
你不知道的Kettle学习笔记2--kettle的常用操作_第23张图片

(七)输出步骤
输出步骤就是输出数据的步骤,常见的输出包括文本文件输出、表输出等,可以根据应用的需求开发插件以其他形式输出。

以“文本文件输出”为例

1、生成10个随机数
你不知道的Kettle学习笔记2--kettle的常用操作_第24张图片

2、把10个随机数以文本文件的形式输出。
你不知道的Kettle学习笔记2--kettle的常用操作_第25张图片

3、执行转换
你不知道的Kettle学习笔记2--kettle的常用操作_第26张图片

(八)、综合转换
生成 100 个随机数,随机数取值于[0,100)之间,计算小于等于 50 的随机数个数和大于50 的随机数个数。
并把这两个统计数字放在数据库表的一行的两列中,即输出的结果有一行,一行包括两列,每列是一个统计值。

解答过程1:生产100个随机数
你不知道的Kettle学习笔记2--kettle的常用操作_第27张图片

解答过程2:随机数取值于0-100
你不知道的Kettle学习笔记2--kettle的常用操作_第28张图片

解答过程3:计算小于等于 50 的随机数个数和大于50 的随机数个数
你不知道的Kettle学习笔记2--kettle的常用操作_第29张图片

你不知道的Kettle学习笔记2--kettle的常用操作_第30张图片

你不知道的Kettle学习笔记2--kettle的常用操作_第31张图片

你不知道的Kettle学习笔记2--kettle的常用操作_第32张图片

解答过程4:两个统计数字放在数据库表的一行的两列中
你不知道的Kettle学习笔记2--kettle的常用操作_第33张图片

你可能感兴趣的:(大数据BI)