关于对学习kettle( 水壶)一周的总结

Kettle的主要过程是:
1、抽取
2、转换(重点)
3、装载
4、加载
Kettle最主要的有两个一个是作业(job),一个是转换(transaction),用作业来进行转换的


执行,转换为业务的处理,建议写好作业后如果要定时执行作业的话建议写系统的定时任务。
---------------------------------------------------
启动Kettle的方法有:
解压出来:
1、windows下运行文件目录下的Spoon.bat文件
2、Linux、Apple OSX、Solaris则运行目录下的Spoon.sh文件
---------------------------------------------------
注意事项:
1、配置Kettle的资源库时需要注意一点,必须要IE9的浏览器才能打开配置页面(这里指的是


7.0的版本,其他版本暂无测试);
2、链接数据库的时候要下载Jdbc支持JAR包,自带的不全,会导致链接报错;
3、部分转换插件不支持数据库的输出编辑,只支持其他文件的输出编辑,如(增加常量、将字段


值设置为常量等);
4、数据库迁移的时候要注意数据库之间的编码问题;
5、在测试的时候插入更新效率较低,建议使用同步;
6、使用kettle自动生成的SQL语句是没有主键和索引的;
7、Kettle的不同数据架构数据库的表迁移的类型是向上转型的,但少部分会识别不了,那就要


查对应的类型手动编辑修改,使用Kettle生成的表数据长度会等于迁移的数据库的表结构类型长


度;
---------------------------------------------------
建议:
1、尽量使用数据库连接池
2、尽量提高批处理的commit size
3、尽量使用缓存,缓存尽量大一些(主要是文本文件和数据流)
4、Kettle 是Java 做的,尽量用大一点的内存参数启动Kettle.
5、可以使用sql 来做的一些操作尽量用sql(SQL写的好可以明显提高速率) 
---------------------------------------------------
目前掌握:
1、Kettle的单表迁移和CRUD(增删改查)
2、会执行Sql脚本
3、从数据库迁移数据到常见的文件中(如XML,TXT等)
4、一些文件的数据抽出迁移到数据库中数据的编辑操作(控件的练习)
5、作业的流程操作
6、Jboss的安装
7、JDK只安装运行环境的方法
8、Mysql、Oracle、Sql server数据库的安装与配置。
---------------------------------------------------
问题:
1、字段值替换操作不支持数据库输出后的内容编辑(如男、女转换为0,1)?
2、使用Kettle自动生成SQL语句建表的时候怎么带上表结构,Kettle抽取数据库的表并无表结构


,如何获取表结构?
3、怎么进行数据库的迁移操作而不是一张张手动设置链接抽取?
4、效率问题?(数据量大的时候很慢)
5、类型转换问题,部分类型转换会出错,如果数量多难道自己写类型的映射解决(迁移的时候数


据库类型很多的情况)?
---------------------------------------------------

你可能感兴趣的:(kettle,etl)