直接上干活,不扯淡

我使用的kettle是6.1版本的,有需要的朋友可以到:https://sourceforge.net/projects/pentaho/files/Data%20Integration/6.1/pdi-ce-6.1.0.1-196.zip/download#,

下载,这是官方下载链接,使用的时候需要事先安装jdk,如果安装了多个jdk,想指定jdk请在环境变量中加PENTAHO_JAVA_HOME,值就是你所指定的jdk的安装路径

ETL工具kettle的使用,基础--1 (最基本的输入输出)_第1张图片

下载后直接解压,双击打开,执行spoon.bat(windows系统)

安装完成后咱们开始进行使用

一.创建转换

点击程序左上角的'文件'-'新建'-'转换'(这里有两个概念要注意,就是转换,作业,一个作业是由很多的转换组成的,这里先主要讲解转换),如图

ETL工具kettle的使用,基础--1 (最基本的输入输出)_第2张图片

二.输入(使用数据库的表输入)

点击程序左边的输入(不是input),鼠标左键按着表输入不动拖到新建的转换内

ETL工具kettle的使用,基础--1 (最基本的输入输出)_第3张图片  ETL工具kettle的使用,基础--1 (最基本的输入输出)_第4张图片

双击表输入可以看到对数据库链接的配置(新建,编辑)

ETL工具kettle的使用,基础--1 (最基本的输入输出)_第5张图片

如果相对现有的链接进行编辑那就点击编辑,新建的话就新建,这里主要将新建,点击新建后

ETL工具kettle的使用,基础--1 (最基本的输入输出)_第6张图片

按照你的实际需要自己填写,数据表空间和索引表空间不用填,当数据库是oracle时,数据库名称填写的是数据库的sid,不是服务名,需要注意,填写完成后可以点击测试进行测试,如果报了jdbc驱动类的错,对lib文件夹中的jar包进行替换/修改就好;

然后根据你的需要正常写sql语句就好,(语句末尾不用加;号)

三.表输出

和表输入一样,在程序左边的输出中找到表输出,拖到右边

首先将两者连起来,记住箭头从输入指向输出,鼠标左键单点表输入,然后按着shift不要动,鼠标左键点着不动从表输入移动到表输出,效果如图ETL工具kettle的使用,基础--1 (最基本的输入输出)_第7张图片,然后放开ETL工具kettle的使用,基础--1 (最基本的输入输出)_第8张图片,注意到没,线条的颜色变化了
然后双击表输出,ETL工具kettle的使用,基础--1 (最基本的输入输出)_第9张图片,同样先选择个数据链接,然后写表名,这里有几个选项给大家大致讲解下,从上往下;'目标模式':主要用来填用户名的,当本用户需要访问同一个sid下的另一个用户时可以填,'提交记录数量':一般默认就好,意思就是回多少条数据向表提交一次,很多情况下大的数值多有助于提高速度,建议100-10000之间;'裁剪表':这个轻易不要选择,千万注意,因为选了这个的时候每次执行转换就会对表做truncate操作,后果有可能很严重,千万注意;'指定数据库字段':当你前一个步骤的字段包含在目标表内时可以不选,但实际生产过程中这种情况很少,你就勾选了吧;

主选项中的选项这里先不细说,只和大家说下'使用批量插入',勾选之后有助于提高速度,但数据有可能会丢,不建议勾选;


当你勾选了''指定数据库字段'后就可以手工配置字段了

ETL工具kettle的使用,基础--1 (最基本的输入输出)_第10张图片

可以先点击获取字段,就会将所有的前面步骤中的所有字段列出来在下面展示出来,流字段代表的是这个任务的字段,表字段才是需要输入的表的字段,往往展示的流字段并不是所需要的字段,需要做一定的修改,比如删除,选中所在的行,按delete键就好,右面的表字段也好修改,需要做好对照,比如表输入中的a字段对应表输出的b字段,不要搞错;

配置好之后报错,点击ETL工具kettle的使用,基础--1 (最基本的输入输出)_第11张图片,这样就可一运行了;