Hadoop集群间数据迁移

数据迁移

1、问题描述

新搭建了一套CDH5.13.1集群,需要将原apache上的数据迁移至新集群。

2、数据迁移工具

Distcp(分布式拷贝)用于大规模集群内部和集群之间拷贝的工具,使用Map/Reduce
实现文件分发。

3、迁移命令

hadoop distcp 数据源 目标数据源
示例:
hadoop distcp hdfs://dsap0:9000/user/hive/warehouse/XX/XX hdfs://dsap7:8020/user/hive/warehouse/XX/XX
注意点:1、该示例中数据源端口为9000,一般默认端口为8020 2、数据源和目标地址均需指定集群namenode的ip 3、distcp命令在新集群中执行(之前网上没人说,在老集群上执行一直OOM)

4、表格修复

1、创建一个和数据源表一样的表格
2、使用msck命令进行表格修复(hive客户端中执行)
示例:
msck repair table 表名

你可能感兴趣的:(Hadoop集群间数据迁移)