windows下Kettle7.1调用GPload

一、Kettle7.1安装

Kettle 7.1下载地址:https://nchc.dl.sourceforge.net/project/pentaho/Data%20Integration/7.1/pdi-ce-7.1.0.0-12.zip

下载完成后Kettle解压缩放置任意盘即可,双击运行。

\color{red}{注:如出现a java exception occurred,则说明安装的java版本不对,kettle7.1需要java8以上环境,并且java安装目录必须是C盘的默认目录下。}

二、GPload环境准备与安装

1、安装包准备:

(1)python2.5.4版本

  • GPload的加载程序(gpload.py)使用python写的,并且windows下面GPload只支持python2.5.4版本,用其他版本运行会报异常;python的版本只能是32位,不然也会报异常。

(2)PyGreSQL-4.1.1.win-amd64-py2.5.msi&PyGreSQL-4.1.1.win-amd64-py2.5.exe

  • greenplum的内核是PostGrelSql,这个组件是python调用PostGreSql所使用

(3)PyYAML-3.10.win32-py2.5.exe

  • 这个组件使用写一些配置文件所使用如(*.yml)

(4)greenplum-loaders-5.15.1-WinXP-x86_32.msi这个是windows下面GPload的安装包

2、软件安装

(1)python安装:运行python安装包,安装到指定目录,其中有一步安装选择用户时,选择"this user only" 不然安装PyGreSQL和PyYAML的python组件会找不到python注册目录。安装完成打开cmd控制台输入python,如果出现不是内部或外部命令,则请配置环境变量。

(2)PyGreSQL请先安装msi文件,再安装exe文件,选择用户时也选择"this user only"。

(3)PyYAML直接安装就行,选择用户也选择"this user only"。

(4)greenplum-loaders-5.15.1-WinXP-x86_32.msi直接安装就行。

GPload使用

1、配置文件&数据准备

新建一个load.yml文件,内容如下:

load.yml

DATABASE: gpdb name  #gp数据库名
USER: gpdb username  #gp用户名
HOST: gpdb host      #gp数据ip地址
PORT: gpdb port      #gp端口
GPLOAD:
INPUT:
- SOURCE:
    LOCAL_HOSTNAME: 
    - file host    #加载文件ip地址
    FILE: 
    - gpload data file #文件地址
- COLUMNS:         #加载的列
  - id: varchar(50)
  - ctif_tp: varchar(10)
- FORMAT: file format csv/text #文件格式csv/text
- DELIMITER: ','   #文件中数据分隔符
- ERROR_LIMIT: 100 #超过多少错误gpload停止
- LOG_ERRORS: True
OUTPUT:
- TABLE: test      #gpdb表名
- MODE: insert     #gpload处理方式 insert/update/merage



准备数据test.csv文件

00023810,1
00023811,2
00023813,2
00023814,2
6000060000,1
6000060000,2

GPload使用要打开对应的gpfdist服务,运行bin目录下的gpfdist.exe即可

打开控制台进入GPload的安装目录,调用命令python gpload.py -f load.yml。弹出输入password密码后GPload就会把数据插入GP数据库中。



你可能感兴趣的:(windows下Kettle7.1调用GPload)