数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342

ETL-Kettle-pdi-ce-8.2.0.0-342

1.资料库建立

connect->repository manager->add->other repositories->database repository->get started->创建连接->finish->connect now->admin/admin->connect

2.两表join并选择抽取部分字段

数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第1张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第2张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第3张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第4张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第5张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第6张图片

3.三表join并选择抽取部分字段

数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第7张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第8张图片

4.写sql进行多表连接并抽取部分字段

数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第9张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第10张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第11张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第12张图片

5.不同数据源的多表连接(孤岛问题)

数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第13张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第14张图片

数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第15张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第16张图片

6.远程操作其它多台电脑并在其它电脑上实现抽取数据

1.测试网络连接:
操作的几台电脑关闭防火墙->网络是否能ping通
2.开放root远程登陆权限:
mysql -u root -p123456
use mysql;
GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY '123456';
flush privileges;

数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第17张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第18张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第19张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第20张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第21张图片

7.行转列

修改MySQL密码:
set password for root@localhost=password('123456');
##行转列由于翻译问题需要选择列转行组件

数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第22张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第23张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第24张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第25张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第26张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第27张图片

8.增量插入,防止多次导入重复数据(数据量小时使用)

1.使用sql脚本清空表数据再插入数据
2.表输出时使用裁切表

数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第28张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第29张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第30张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第31张图片

9.大数据量的增量插入

1.插入/更新:插入没有的或更新变化的数据(insert/update)
2.同步更新:源表与目标表内容完全一致(将新数据源数据同步到就数据源中)
3.时间戳方式更新:清空1天内的数据再插入1天内的数据

数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第32张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第33张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第34张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第35张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第36张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第37张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第38张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第39张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第40张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第41张图片

10.job定时任务

数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第42张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第43张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第44张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第45张图片

11.Oracle工具操作

1.Oracle切换账号
2.Oracle表修改元数据(当报错提示:列 "ODS"."ODS_CUST_INFO"."CREATE_TIME"的值太大(实际值:37,最大值:30))

数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第46张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第47张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第48张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第49张图片

12.单表查询获取字段(求某个月累计电话时长)

数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第50张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第51张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第52张图片

13.多表join连接并聚合统计

1.两表连接或三表连接:连接->Multiway Merge Join
2.字段公式统计生成新的字段:脚本->公式(if公式:   if([start_time1]>[start_time2];1;0)   )
3.选取部分字段:转换->字段选择(选取处理字段,并修改字段格式)
4.聚合函数统计:转换->排序,统计->分组(先按分组字段排序,再进行分组聚合)

数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第53张图片

数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第54张图片

数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第55张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第56张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第57张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第58张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第59张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第60张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第61张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第62张图片
数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342_第63张图片

你可能感兴趣的:(数据开发,etl,大数据)