ETL数据仓库工具Kettle(PDI)轻量级Web应用服务器环境搭建

一、Kettle工具简介

        最近做的项目用到了ETL工具Kettle,这个工具相当好用,可以将各种类型数据作为数据流,经过处理后再生成各种类型的数据。正如其名“水壶”,将各个地方的水倒进水壶里,再用水壶倒入不同的容器。 

        本教程主要介绍kettle轻量级服务器 Carte的部署与应用,主要记录研究过程中踩的坑。

二、Kettle组件说明

 Kettle里有不同的工具,用于ETL的不同阶段。主要工具如下:

  • Spoon:图形化工具,用于快速设计和维护复杂的ETL工作流。
  • Kitchen:运行作业的命令行工具。
  • Pan:运行转换的命令行工具。
  • Carte:轻量级的(大概1MB)Web服务器,用来远程执行转换或作业,一个运行有Carte进程的机器可以作为从服务器,从服务器是Kettle集群的一部分。

三、Linux环境Kettle Carte部署搭建

1、首先基于Centos7环境安装Java环境(略),查看java环境安装版本

java -version 

2、Kettle为绿色安装包,下载后解压即可,Linux通windows解压即可。

ETL数据仓库工具Kettle(PDI)轻量级Web应用服务器环境搭建_第1张图片

3、修改Carte 轻量级服务配置文件,kettle安装目录,例如\data-integration\pwd。

修改carte-config-master-8080.xml.

ETL数据仓库工具Kettle(PDI)轻量级Web应用服务器环境搭建_第2张图片

ETL数据仓库工具Kettle(PDI)轻量级Web应用服务器环境搭建_第3张图片

4、启动Carte 服务,启动命令如下。看到日志创建Web监听服务器打印日志,服务启动成功。

./carte.sh ./pwd/carte-config-master-8080.xml
ETL数据仓库工具Kettle(PDI)轻量级Web应用服务器环境搭建_第4张图片

5、webAPI调用接口启动Kettle脚本,使用PostMan调用接口

HTTP请求,支持POST、GET方式

127.0.0.1:7000/kettle/executeJob/?rep=KettleFileRepository&job=/testjob

rep=KettleFileRepository  :  rep kettle资源仓库,KettleFileRepository    为资源仓库ID

job=/testjob                        :job 为需要运行的工作脚本名称,特别注意,此处任务名称是job,任务名称后缀是kjb.

ETL数据仓库工具Kettle(PDI)轻量级Web应用服务器环境搭建_第5张图片

服务器端日志显示执行成功

ETL数据仓库工具Kettle(PDI)轻量级Web应用服务器环境搭建_第6张图片

如果提示  Error 401 Unauthorized错误,是Carte服务默认启用了Base Auth。默认用户名密码为 cluster

ETL数据仓库工具Kettle(PDI)轻量级Web应用服务器环境搭建_第7张图片

四、特别注意要点,Kettle资源仓库的配置

资源仓库为xml配置文件,windows系统默认在当前用户目录C:\Users\abc\.kettle;centos用户目录 /root/.kettle

资源库名称KettleFileRepository,就是http请求的资源库名称

base_directory 资源库物理路径,存放Kettle脚本的路径 

ETL数据仓库工具Kettle(PDI)轻量级Web应用服务器环境搭建_第8张图片

资源库配置文件 repositories.xml



     KettleFileRepository
    kettleFileRepository
    File repository
    false
    /JFS/files/kettle/job
    N
    N
 
 

脚本物理地址:

ETL数据仓库工具Kettle(PDI)轻量级Web应用服务器环境搭建_第9张图片

 

你可能感兴趣的:(Linux,etl)