KETTLE使用教程

1、Kettle的下载与安装

kettle的最新下载地址:http://community.pentaho.com/projects/data-integration/
KETTLE使用教程_第1张图片
由于Kettle 是采用java 编写,因此需要在本地有JVM 的运行环境。

安装完成之后,点击目录下面的kettle.exe 或者spoon.bat 即可启动kettle 。在启动kettle 的时候,会弹出对话框,让用户选择建立一个资源库。

资源库:是用来保存转换任务的, 它用以记录我们的操作步骤和相关的日志,转换,JOB 等信息。用户通过图形界面创建的的转换任务可以保存在资源库中。资源库可以是各种常见的数据库,用户通过用户名/ 密码来访问资源库中的资源,默认的用户名/ 密码是admin/admin. 资源库并不是必须的,如果没有资源库,用户还可以把转换任务保存在 xml 文件中。

2、解压

首先解压下载下来的压缩包如:pdi-ce-7.1.0.0-12.zip
然后打开Spoon.bat,如图所示:
KETTLE使用教程_第2张图片
KETTLE使用教程_第3张图片

3、配置环境变量

在系统的环境变量中添加KETTLE_HOME变量,目录指向kettle的安装目录:D:\Module\data-integration(具体以安装路径为准)
新建系统变量:KETTLE_HOME
变量值: D:\Module\data-integration(具体以安装路径为准,Kettle的解压路径,直到Kettle.exe所在目录)

选择PATH添加环境变量:
变量名:PATH
变量值:% KETTLE_HOME%;
KETTLE使用教程_第4张图片

4、Kettle的基本概念

4.1作业(job)

负责将[转换]组织在一起进而完成某一块工作,通常我们需要把一个大的任务分解成几个逻辑上隔离的作业,当这几个作业都完成了,也就说明这项任务完成了。
1.Job Entry:一个Job Entry 是一个任务的一部分,它执行某些内容。
2.Hop:一个Hop 代表两个步骤之间的一个或者多个数据流。一个Hop 总是代表着两个Job Entry 之间的连接,并且能够被原始的Job Entry 设置,无条件的执行下一个Job Entry,
直到执行成功或者失败。
3.Note:一个Note 是一个任务附加的文本注释信息。
KETTLE使用教程_第5张图片

4.2转换(Transformation)

定义对数据操作的容器,数据操作就是数据从输入到输出的一个过程,可以理解为比作业粒度更小一级的容器,我们将任务分解成作业,然后需要将作业分解成一个或多个转换,每个转换只完成一部分工作。

1.Value:Value 是行的一部分,并且是包含以下类型的的数据:Strings、floating point Numbers、unlimited precision BigNumbers、Integers、Dates、或者Boolean。
2.Row:一行包含0 个或者多个Values。
3.Output Stream:一个Output Stream 是离开一个步骤时的行的堆栈。
4.Input Stream:一个Input Stream 是进入一个步骤时的行的堆栈。
5.Step:转换的一个步骤,可以是一个Stream或是其他元素。
6.Hop:一个Hop 代表两个步骤之间的一个或者多个数据流。一个Hop 总是代表着一个步骤的输出流和一个步骤的输入流。
7.Note:一个Note 是一个转换附加的文本注释信息。
KETTLE使用教程_第6张图片

5、启动kettle

5.1启动

进入kettle安装解压目录D:\Module\data-integration
双击Spoon.bat启动
KETTLE使用教程_第7张图片

5.2新建转换

KETTLE使用教程_第8张图片

5.2.1修改名称

KETTLE使用教程_第9张图片
KETTLE使用教程_第10张图片

5.2.2连接数据源

KETTLE使用教程_第11张图片
KETTLE使用教程_第12张图片

5.2.3kettle 安装mysql 驱动

点击测试提示一下日常错误信息

错误连接数据库 [mysql] : org.pentaho.di.core.exception.KettleDatabaseException: 
Error occurred while trying to connect to the database

Driver class ‘org.gjt.mm.mysql.Driver‘ could not be found, make sure the ‘MySQL‘ driver (jar file) is installed.
org.gjt.mm.mysql.Driver


org.pentaho.di.core.exception.KettleDatabaseException: 
Error occurred while trying to connect to the database

Driver class ‘org.gjt.mm.mysql.Driver‘ could not be found, make sure the ‘MySQL‘ driver (jar file) is installed.
org.gjt.mm.mysql.Driver

KETTLE使用教程_第13张图片

5.2.4解决错误

5.2.4.1下载驱动

https://dev.mysql.com/downloads/file/?id=468318
KETTLE使用教程_第14张图片

5.2.4.2将对应的mysql驱动包放到下kettle的目录

D:\Module\data-integration\libswt\win64

*注意:电脑是64位的*
KETTLE使用教程_第15张图片

或放置到

D:\Module\data-integration\lib

5.2.5重新启动kettle并配置数据库连接

KETTLE使用教程_第16张图片

正确连接到数据库[正式库抽取数据到测试库] 
主机名       : ip
端口           : 3306
数据库名:datacenter

6、运行kettle

KETTLE使用教程_第17张图片
KETTLE使用教程_第18张图片

你可能感兴趣的:(ETL)