Hive中备份分区表

0

接手前辈的一个项目有新需求,虽然ods层表是全量采集的不过为了稳妥起见备份原始ods层的表

1.备份分区表

  1. 旧表名是kpi,先like完全复制原表结果生成bak后缀的备份表

create table if not exists kpi_bak like kpi

我倾向于用like 而不是as select。like虽然只能复制表结构不能带数据,但是可以完全复制表结构(包括分区),备份数据后所占空间和原表差不多。
as select 备份表可以复制表结构和数据,语法简单。缺点是备份表的分区字段会变成普通列,且无法复制表字段的comment备注信息。由于分区字段变为普通列会导致表占用空间膨胀,可能是源分区表的十几倍。
2. 看看源表分区字段(没有可以跳过,下面insert语句里的partiton()就不用写了),我这里只有一个叫 partition_column_name名字的分区。

show partitions kpi

  1. 插入源表数据到备份表中

insert into kpi_bak partition(partition_column_name) select * from kpi

完成~
select 看看记录数和重要字段,备份表和原表一致~可以开始真正的开发了!

2.从备份表导入数据到新表时,新表字段多于旧表字段

这样的情况:
备份旧表完毕后,新建的新表的字段数多余旧表的字段数,这时候将旧表数据导入到新表时,新表多余的字段一般是手动加逻辑,顺序别搞错了!

insert into table newTable partition(partition_column_name=‘1’) select old1,old2,current_data as newColumn

你可能感兴趣的:(总结,hive,hadoop,大数据)