Kettle7.0同步数据(简单操作步骤hive-hive)

 一、Kettle说明介绍和原理说明

Kettle是一款免费的ETL工具。

ETL分别是“Extract”、“ Transform” 、“Load”三个单词的首字母缩写,也就是代表ETL过程的三个最主要步骤:“抽取”、“转换”、“装载”,但我们平时往往简称其为数据抽取。

ETL过程的三个最主要步骤:

“抽取”:将数据从各种原始的业务系统中读取出来,这是所有工作的前提。

“转换”:按照预先设计好的规则将抽取的数据进行转换,使本来异构的数据格式能统一起来。

“装载”:将转换完的数据按计划增量或全部导入到数据仓库中。

二、Kettle同步数据(简单操作步骤)

下载地址:https://sourceforge.net/projects/pentaho/files/Data%20Integration/

下载:pdi-ce-7.1.0.0-12.zip

1、文件->新建->转换

双击打开spoon.bat,在左侧主对象菜单栏,点击“转换”

2、核心对象-->输入,选择表输入

2.1、选择新建

Kettle7.0同步数据(简单操作步骤hive-hive)_第1张图片

 

2.2、输入数据库连接信息,点击测试,点击确定后,表输入那里可选择

Kettle7.0同步数据(简单操作步骤hive-hive)_第2张图片

 Kettle7.0同步数据(简单操作步骤hive-hive)_第3张图片

 Kettle7.0同步数据(简单操作步骤hive-hive)_第4张图片

 2.3、输入查询的SQL语句,点击预览 

Kettle7.0同步数据(简单操作步骤hive-hive)_第5张图片

 3、核心对象-->输出,选择表输出

3.1、点击新建,输入数据库信息进行连接(和2.1步骤一致)

 3.2、选择数据库连接,选择目标表,点击确定即可

(如果有模式,这里可输入,并预览)

(可选择目标表的预览,看看是否可预览)

Kettle7.0同步数据(简单操作步骤hive-hive)_第6张图片

 4、连接并执行

4.1、选中表输入,按shirt键,拉线和表输出建立连接。

单击【表输入】,按shift键连接【表输入】,建立起【表输入】和【表输出】的连接

 4.2、点击执行

Kettle7.0同步数据(简单操作步骤hive-hive)_第7张图片

 

4.3、查看结果

Kettle7.0同步数据(简单操作步骤hive-hive)_第8张图片

Kettle7.0同步数据(简单操作步骤hive-hive)_第9张图片

 

你可能感兴趣的:(#,大数据,数据仓库,大数据,hive,kettle)