Hive 重复数据去重

hive中去重的代码:

  1. insert overwrite table store  
  2.   select t.p_key,t.sort_word from   
  3.     ( select p_key,  
  4.            sort_word ,  
  5.            row_number()over(distribute by p_key sort by sort_word) as rn  
  6.      from store) t  
  7.      where t.rn=1;

 

Hive上一个典型表内除重的写法, p_key为除重依据, sort_word 为排序依据,一般为时间   rn为排名。 这里就留下第一名

参考地址:http://blog.csdn.net/limao314/article/details/14126391

 

你可能感兴趣的:(hive 重复数据 去重)