【大数据学习笔记-2】将阿里云上的RDS数据库复制到华为云hive数据库

【学习背景】

近期在帮我一个客户做电商大数据分析平台,需要从阿里云上将RDS数据库复制到华为云,然后利用华为云的大数据服务MRS进行分析。本文主要体验华为云的数据迁移服务CDM将阿里云RDS的一个数据库整体复制到华为云大数据平台的Hive数据库。

【关键思路】

1、华为云购买测试版本的数据迁移服务CDM,并分配一个公网IP和带宽。

2、阿里云RDS上添加到白名单,并分配一个只读权限的账户。

3、华为云创建大数据服务MRS,配置低配置即可。

4、在CDM迁移服务中,创建2个数据连接通道,分别连接到阿里云的RDS数据库和华为云的MRS hive数据库。

5、在CDM上启动数据迁移,将阿里云的数据库复制到华为云。

【前提条件】

1、阿里云上已部署了RDS数据库,并且有测试数据。

【操作步骤】

1、华为云购买测试(POC)版本的数据迁移服务CDM,并分配一个公网IP和带宽。

【大数据学习笔记-2】将阿里云上的RDS数据库复制到华为云hive数据库_第1张图片

选择华北-北京一区,POC版本。

【大数据学习笔记-2】将阿里云上的RDS数据库复制到华为云hive数据库_第2张图片

在云迁移服务集群CDM的控制台中,绑定一个公网IP。如果没有购买IP,需要先购买。记录好该IP,后续需要在阿里云上添加到白名单才能访问。

【大数据学习笔记-2】将阿里云上的RDS数据库复制到华为云hive数据库_第3张图片

2、阿里云RDS的控制台中,查看RDS实例详情并添加CDM的公网地址到白名单,并分配一个只读权限的账户。

【大数据学习笔记-2】将阿里云上的RDS数据库复制到华为云hive数据库_第4张图片

【大数据学习笔记-2】将阿里云上的RDS数据库复制到华为云hive数据库_第5张图片

在RDS实例中,为待复制的数据库创建一个只读权限的root账号。

【大数据学习笔记-2】将阿里云上的RDS数据库复制到华为云hive数据库_第6张图片

3、华为云创建大数据服务MRS,配置低配置即可。

登录华为云官网www.huaweicloud.com,控制台-服务列表-EI企业智能-MapReduce服务,购买集群。 作为功能测试环境,将默认配置修改最低配置即可。

【大数据学习笔记-2】将阿里云上的RDS数据库复制到华为云hive数据库_第7张图片

功能测试选择的是最低配置,因此hadoop初始化创建节点比较慢,大概花了10分钟。

【大数据学习笔记-2】将阿里云上的RDS数据库复制到华为云hive数据库_第8张图片

4、在CDM迁移服务控制台-作业管理中,创建2个数据连接通道,分别连接到阿里云的RDS数据库和华为云的MRS hive数据库。

【大数据学习笔记-2】将阿里云上的RDS数据库复制到华为云hive数据库_第9张图片

5、创建一个迁移任务,将阿里云RDS数据库复制到华为云MRS集群中的Hive节点上去。

【大数据学习笔记-2】将阿里云上的RDS数据库复制到华为云hive数据库_第10张图片

6、等待迁移完成,在mrs的文件路径中看到阿里云RDS上的每张表对应到hive的一个文件,表名对应文件名。

【大数据学习笔记-2】将阿里云上的RDS数据库复制到华为云hive数据库_第11张图片

【疑问】

1、阿里云RDS更新数据后,增量数据复制怎么操作?CDM中没有看到增量迁移的功能噢。如果需要分析实时数据,那怎么进行自动从阿里云上实时同步数据到华为云上呢?

 

========================================

今天周六开了一天会,头都是晕的。今晚早点歇歇,改天再研究,肯定有办法的。

 

你可能感兴趣的:(大数据)