对hive分区表新增字段后,在执行插入分区的动作,会发现其实数据文件中已经有新字段值了,但是在查询的时候新字段的值还是显示为null。
比如我们做一个简单的问题重现
我们先创建一个分区表xj_test1,往分区dt=201501中插入一条数据:
create table xj_test1(a string,b string) partitioned by (
dt string)
row format delimited fields terminated by ',';
INSERT OVERWRITE TABLE xj_test1 PARTITION(dt=201501)
select '1','1' from dual
然后我们新加一个字段:
alter table xj_test1 add columns (c string);
再往上面的那个分区中插入数据:
INSERT OVERWRITE TABLE xj_test1 PARTITION(dt=201501)
select '1','1','1' from dual
按照常理的话,现在查询201501分区的数据,应该显示1,1,1 。但是新加的字段c的值为null,在hdfs上该分区目录下面的数据文件中确实已经有c字段的值了,只是查询不出来。
原因是修改表结构以后,元数据库中的SDS中该表对应的CD_ID会改变,但是该表分区下面对应的CD_ID还是原来表的CD_ID,
比如我这边测试表叫:xj_test1,分区字段叫dt
查看表的CD_ID:select CD_ID from SDS where LOCATION='hdfs://n1:8020/user/hive/warehouse/xj_test1' ,(假设我们这里查出来表的新的CD_ID值为35178)
查看表的所有分区的CD_ID:SELECT * FROM SDS WHERE LOCATION LIKE 'hdfs://n1:8020/user/hive/warehouse/xj_test1/dt=%'
我们需要手工更新一下现有分区的CD_ID的值为表CD_ID的值:
UPDATE SDS SET CD_ID=35178 WHERE LOCATION LIKE 'hdfs://n1:8020/user/hive/warehouse/xj_test1/dt=%'
然后我们再去查询一下表xj_test1,字段c的值可以正常的显示出来了。
当然,删除分区重建也是可以的,具体选择哪种方法根据实际情况决定,毕竟删除分区是会删除数据的,如果不允许删除原来的数据,建议还是修改元数据。