达梦数据交换平台(简称DMETL)是在总结了众多大数据项目经验和需求并结合最新大数据发展趋势和技术的基础上,自主研发的通用的大数据处理与集成平台。
DMETL创新地将传统的ETL工具(Extract、Transform、Loading)与分布式大数据处理平台相结合,实现了对数据同步、数据处理以及数据共享交换的一站式支持,大幅度降低了用户使用各种hadoop以及flink进行大数据整合处理的技术门槛,是构建数据同步、数据交换、数据仓库以及数据中心等数据集成类应用的理想平台。
本次实验使用单机版,所有的组件运行在一个系统服务中,只包含一个原生执行器,占用资源较小,安装部署方便,适合小型项目以及个人学习使用。
实验目标:完成DMETL部署,练习数据DM7-DM7数据迁移。
环境规划:
IP地址:192.168.50.100
软件路径规划
Linux系统目录 |
说明 |
|
1 |
/dmetl5 |
DMETL安装路径 |
1、图形化界面安装
2、命令行方式部署
./dmetl_standalone.bin –i
指定 DMETL 单机版安装的路径,输入以下路径作为安装路径
选择使用的数据库类型,默认为内置数据库
配置数据库相关的信息,指定【数据库IP】、【数据库端口】、【数据库名称】、【用户名】、【使用默认连接信息】和【密码】。
3、服务启动
在standalone目录下由启动脚本:
standalone_start.sh:以命令行的方式启动单机版服务;
standalone_stop.sh:通知单机版服务停止执行;
install_standalone_service.sh:安装单机版操作系统服务;
uninstall_standalone_service.sh:卸载单机版操作系统服务;
standalone_service_start.sh:启动单机版操作系统服务;
standalone_service_stop.sh:停止单机版操作系统服务;
standalone_service_restart.sh:重启单机版操作系统服务。
启动服务:
./ standalone_service_start.sh
1、登录http://192.168.50.100:8080/index页面,默认用户名密码:admin/admin
2、新建工程
上方菜单栏点击[设计]选择工程,在左侧[工程]标识右击鼠标选择[新建工程]
1、假设有如下用户需求,描述如下:
源表:
create table T_YUAN(ID INT PRIMARY KEY,NAME VARCHAR(50),PARA1 VARCHAR(10),PARA2 VARCHAR(10),PARA3 VARCHAR(10));
测试数据:
INSERT INTO T_YUAN VALUES (10000101,'测试数据1','A1','B1',null);
INSERT INTO T_YUAN VALUES (10000102,'测试数据2','A2','B2','C3');
INSERT INTO T_YUAN VALUES (10000103,'测试数据3','A3','B3','C3');
INSERT INTO T_YUAN VALUES (10000104,'测试数据4','A4',null,null);
目的表:
create table T_MUDI1(ID INT PRIMARY KEY,NAME VARCHAR(50),PARA VARCHAR(10));
配置T_YUAN->T_MUDI1的全量转换,列值映射关系
(1) T_YUAN.ID -> T_MUDI.ID
(2) T_YUAN.NAME -> T_MUDI1.NAME
(3) 对于源表的每条数据
如果PARA3不为空则:
T_YUAN.PARA3 ->T_MUDI1.PARA
否则,如果PARA2不为空则:
T_YUAN.PARA2 -> T_MUDI1.PARA
否则,如果PARA1不为空则:
T_YUAN.PARA1 -> T_MUDI1.PARA
a.根据条件筛选para值,创建对应聚合:
b.原表输出对应条件
PARA3 != null
PARA3 == null && PARA2 != null
PARA3 == null && PARA2 == null && PARA1 !=null
c.将聚合过程创建联合:
最后输出至目标表。
更多技术内容请访问社区:https://eco.dameng.com