ETL第一篇(Kettle Spoon) 初遇

原文链接: http://www.cnblogs.com/52liming/p/9416885.html
  • ETL第一篇(Kettle Spoon) 初遇
  • ETL第二篇 调用webservice

简介

Kettle 是一款国外开源的 ETL 工具,纯 Java 编写,绿色无需安装,数据抽取高效稳定(数据迁移工具)。Kettle 中有两种脚本文件,transformation 和 job,transformation 完成针对数据的基础转换,job 则完成整个工作流的控制。

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

安装

这里用的是client-tools v8.1

  • 下载: v8.1 :https://excellmedia.dl.sourceforge.net/project/pentaho/Pentaho%208.1/client-tools/pdi-ce-8.1.0.0-365.zip
    (建议在浏览器打开, 再使用迅雷, 如果直接复制链接使用迅雷, 可能无法激活下载)
  • 下载首页: https://sourceforge.net/projects/pentaho/files/

  • 配置好JAVA_HOME( 或者JRE_HOME), 运行 spoon.bat 即可,
    建议右键打开power shell,或cmd, 然后输入spoon.bat启动, 这样便于查看错误

  • JDBC驱动 [MySQL+SQL Server + Oracle] 链接: https://pan.baidu.com/s/1D-DxMMqxPM67Jxm4f49jzA 密码: mj8b
    将需要用到的jar包提前放到data-integration/libdata-integration/libswt/对应的目录下
    我这里是win64, 为了方便, 将需要的包发到了data-integration/libswt/win64/

问题

  • 如果提示javaw.exe文件找不到, 检查JAVA_HOME (或者JRE_HOME)配置

  • 如果提示JVM内存过大之类的问题, 可修改spoon.bat中内存配置
    (在117行左右)
if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS="-Xms512m" "-Xmx1024m" "-XX:MaxPermSize=256m"

使用技巧

1. 共享已连接的数据库

配好了数据库, 写完第一个转换, 准备写第二个转换时发现数据又需要重新连接, 这里只需要右键已连接的数据, 选择[共享]即可;
ETL第一篇(Kettle Spoon) 初遇_第1张图片

参考文档

  • 开源中国项目页
  • 文档

转载于:https://www.cnblogs.com/52liming/p/9416885.html

你可能感兴趣的:(ETL第一篇(Kettle Spoon) 初遇)