Hive全库数据迁移

Hive全库数据迁移

这里使用的export/import这两个指令
主要的流程

  • 将旧集群的hive数据导出至其hdfs中
  • 将旧集群hdfs中的导出数据下载到本地中
  • 将本地的导出数据上传至新的集群hdfs中
  • 将新集群hdfs中的数据导入至新集群中的hive中

1.将旧集群的hive数据导出至其hdfs中

1.1设置hive启动默认数据库

在hive的配置目录中新建.hiverc文件,配置默认的数据库(即你需要导出的数据库)

vim /etc/alternatives/hive-conf/.hiverc
	use export_db;
1.2在hdfs上创建导出目录
hdfs dfs -mkdir -p /tmp/export_db_export
1.3导出旧集群的hive数据
  • 生成导出脚本
hive -e "show tables;" | awk  '{printf "export table %s to |/tmp/export_db_export/%s|;\n",$1,$1}' | sed "s/|/'/g" | grep -v tab_name > /home/export.hql
  • 导出数据
hive -f /home/export.hql

2.将导出的数据下载到本地

  • 下载数据
hdfs dfs -get /tmp/export_db_export /home/export_db

进去文件夹下相应的表文件夹下,可以看到数据文件夹和元数据文件

drwxr-xr-x. 2 root root   39 Jan 14 21:28 data
-rw-r--r--. 1 root root 1672 Jan 14 21:28 _metadata

3.将本地的导出数据上传至新的集群hdfs中

  • 上传数据
hdfs dfs -put /home/export_db /tmp/export_db_export

这里的/tmp/export_db_export需要提前创建

4.将新集群hdfs中的数据导入至新集群中的hive中

4.1 生成导入脚本

我们将之前的export.hql脚本修改下就可以当做我们的import.hql脚本

cp /home/export.sql /home/import.sql
sed -i 's/export /import /g' /home/import.sql
sed -i 's/ to / from /g' /home/import.sql
4.2导入数据
  • 这里也需要设置hive的默认数据库
vim /etc/alternatives/hive-conf/.hiverc
	use import_db;
  • 导入数据
hive -f /home/import.sql  

至此Hive数据的迁移就完成.

大家可能在直接使用hive登陆时,无法进入hive数据库,会报一个 character not support的错误;可能是由于使用hive登陆存在漏洞,hive连接被禁用了;这时候需要使用beeline连接hive并进行数据迁移,下面给大家介绍下如何使用beeline来进行数据迁移
  • 修改默认数据库(这里配置文件貌似对beeline不起作用,需要在后面指定)
  • 创建hdfs目录(同上)
  • 使用beeline进行导出脚本的生成
beeline -u jdbc:hive2://test01:10000 -e "use export_db;show tables;"| awk '{printf "export table %s to |/tmp/export_db_export/%s|;\n",$2,$2}' | sed "s/|/'/g"|sed '1,3d'|sed '$d' > /home/export.hql
  • 执行导出脚本
    在执行脚本前,在脚本第一行指定数据库(目前的笨办法)
sed -i '1i use export_db;' /home/export.hql
beeline -u jdbc:hive2://test01:10000 -n hdfs -f /home/export.hql

这里我在使用的时出现了文件权限的错误,这里建议直接使用hdfs用户进行操作

  • 这里使用distcp来进行hdfs文件在新集群的上传
hadoop distcp hdfs://host01:8020/tmp/export_db_export/ hdfs://host02:8020/tmp/export_db_export

新的集群hdfs目录需要提前创建

  • 修改import.hql(同上)
cp /home/export.hql /home/import.hql
sed -i 's/export /import /g' /home/import.hql
sed -i 's/ to / from /g' /home/import.hql
sed -i '1d' /home/import.hql
sed -i '1i use import_db;' /home/import.hql
  • 导入数据
create database import_db;
beeline -u jdbc:hive2://test01:10000 -n hdfs -f /home/import.hql

至此数据迁移完成.请自行验证

select * from table_name limit 10;

你可能感兴趣的:(日常工作总结)