2022/03/22 Kettle 批量增量设计

以前接触的ETL产品只是SAP BW/BO,最近这一年,才开始使用kettle进行ETL。彻底让我改变了对开源产品不好的印象。以前一直认为开源的产品,不能像商业收费产品那样稳定,功能差,不够人性。但是kettle完全就像一个商业收费产品(除了没有完善的文档说明),要功能有功能,要稳定有稳定,而且有一点我觉得是比sap更加强大,就是可配置性更强。

当然要让kettle能流畅的运行起来,有些配置是需要单独设计,有些功能要小心使用

1 当前最新版本是9.2,只能使用JDK8(这个版本真心有点老),下个版本9.3才能支持JDK11,我更希望他们能快点支持JDK17(我现在超爱ZGC).下载地址:https://sourceforge.net/projects/pentaho/files/

2 Kettle最强就是他的E功能,搬数据。至于T功能,还是尽量使用数据库自身的SP。(这是kettle文档写的)

3 kettle有些功能要谨慎使用,(insert/upd, js 等)

4日志级别设置为Error,加快处理速度。

5 jdk 设置,我这边设置为-Xms 4096m -Xmx 4096m ,默认GC(ParallelGC)—我想用ZGC

6 并行job处理(我们这边是5个抽取作业同步进行)

现在效果是:43个表2个小时内的物理删除抽取大概需要5分钟,52个表2个小时的增量(新增/修改)大概需要10分钟。现在在想办法变成一天一次抽取全天的物理删除和增量。(使用过程中的内存峰值,不超过3G,非常优秀 )如何设计搬数据?(我们这边的kettle只用来数据抽取和管理作业,发挥它的最强项)

可以参考下图
2022/03/22 Kettle 批量增量设计_第1张图片
---------------------------------------------------------------2022/02/07 更新-----------------------------------------------------------------------------
Kettle 9.3 文档是要求用JDK11,我尝试使用JDK17,居然也成功了。至少大部分功能是没有问题

你可能感兴趣的:(Kettle,数据库开发,其他)