ETL工具之Kettle的使用及源码研读

首先简单说明一下ETL的概念,引用百度上写的就是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

再说下Kettle是什么。它其实就是一个数据迁移的工具,使用java编写,提供图形界面来设计ETL转换过程。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。(引用百度百科)

至于Kettle怎么使用比较简单,可参考其它文章,本篇主要说下如何通过Intellij idea加载Kettle7.1源码。Kettle7.1版本还没有引入maven,是通过ant进行编译的,而ant对于现在来说是上古神器了,那么在idea中如何才能编译执行7.1的源码呢?可参考以下步骤:

1.从github上下载完项目之后使用idea加载

2.通过idea的project structure添加依赖的jar包。至于这些依赖的包从哪里来?可以通过下载的kettle可执行的包下面的lib文件夹中获取。

3.通过编写测试类来执行ktr或者kjb脚本。

另外如果有写kettle插件的话也可以通过project structure添加插件的module。这样就可以方便调试插件源码了。

你可能感兴趣的:(大数据)