hive使用的一些坑

我们在对数据进行提取的时候,hive是经常用的工具,hql跟sql非常类似,也是面向数据分析人员的语言,但是hive在使用过程中可能会有非常多的坑,本文主要收集自己在使用的时候碰到的一些坑,供读者参考。

1. 假设我们已经有了一个分区表,分区字段为p_date,按照日期进行分区,如果我们要完全覆盖已有的分区表,你可以使用overwrite,如下:

overwrite table dm_strategy.ch_week_active_days partition(p_date = '2018-01-01')

表面上看起来没有问题,但是实际上在map-reduce的过程中很有可能卡在100%不动,所以建议先删除分区表,再写入:

alter table dm_strategy.ch_week_active_days drop partition(p_date = '2018-01-01')

然后再执行插入数据,这个时候往往会比较顺利。

2. 这两天真的超级坑,就想说一句,大家在join表的时候,一定要注意一个东西,就是字段的类型,因为经常经常性的,你会发现,两个相同名字的字段,特么的,类型不一样,这样导致了join的时候,会有一堆坑!!!!!!!!所以大家一定要学会使用DESC这个命令来描述表的结构什么的,不然真的超级难受~

你可能感兴趣的:(hive)