kettle的图形工具(Spoon)简单介绍

kettle(ETL)的简单使用

最近刚接手一个新项目,接触了一个叫kettle的工具,这玩意可以用在数据同步,数据清洗,跨数据源等问题,而且不需要写代码,简单易懂。
以下来源百度百科:
Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。

工具

首先用到Spoon在这里插入图片描述工具,这个工具可以图形界面化的操作。简单易懂。
Spoon可以新建转换、作业两种文件。

1.转换

主要的业务逻辑就是在转换里完成的,比如数据的清洗,数据的同步,输出文件等。
新建一个转换,可以在核心对象里找需要萃取的数据来源,比如表、Excel文件、Json等都在【输入】文件夹里,直接把图标拉倒右边空白处即可
kettle的图形工具(Spoon)简单介绍_第1张图片
比如我这边拉了一个表输入kettle的图形工具(Spoon)简单介绍_第2张图片
然后双击表输入显示以下窗口
kettle的图形工具(Spoon)简单介绍_第3张图片
先编辑步骤名称比如[数据源A的表输入],然后新建数据源,填好对应的数据源名称,数据源对应的信息
kettle的图形工具(Spoon)简单介绍_第4张图片
其中 fenrun.db.url 的参数需要在kettle的配置文件写好,如下图
kettle的图形工具(Spoon)简单介绍_第5张图片
kettle的图形工具(Spoon)简单介绍_第6张图片
然后可以在转换目录里选择 列转行,列拆分,字段选择等,最后再输出目录里选择对应的输出。
最后把需要清洗的sql写好
以下是几个小例子
1.
kettle的图形工具(Spoon)简单介绍_第7张图片
这个转换是把数据源A的用户表
kettle的图形工具(Spoon)简单介绍_第8张图片
将内容输出到测试表中t_test
kettle的图形工具(Spoon)简单介绍_第9张图片
kettle的图形工具(Spoon)简单介绍_第10张图片
看看执行结果
因为我上面字段选择只选择了三个字段,所以我这边也只有三个字段
kettle的图形工具(Spoon)简单介绍_第11张图片
当然也可以输出其他形式的:
kettle的图形工具(Spoon)简单介绍_第12张图片
只是每次输出,spoon只会选择其中一条输出,所以咱可以串成一条线就可以了
kettle的图形工具(Spoon)简单介绍_第13张图片

2.作业

一个作业中可以包含多个转换,
kettle的图形工具(Spoon)简单介绍_第14张图片
上面的意思是,从start开始执行,先执行转换1,转换1执行完才能执行转换2(这样可以控制先后顺序,对于一些需要先后顺序的任务来说就可以很好的控制),转换2执行成功,则执行shell1,执行失败则执行shell2。
其中,锁、绿色√、红色×标志可以直接点那些标志来更换。

一个极为简单的介绍,需要深入了解的可以联系我。

你可能感兴趣的:(数据同步)