hive增量更新

很多数据需要进行更新,如用户信息修改。hive0.11之后开始支持update和delete。但是hive频繁更新与hive的设计原则相反,并且hive增量更新很缓慢。为实现增量更新,我们可以采用union all进行关联或在一个分区表中求最新的日期的数据。

select b.id,b.content,b.update_date from (

select a.*,row_number() over (distribute by id sort by update_date) as rn
from (select id,content,update_date from t1 union all select id,content,update_date from t2) a
) b

where b.rn=1;

或者

select b.id,b.content,b.update_date from 

(select a.* ,row_number() over(distribute by id sort by update_date) as rn from a) b

where b.rn=1;


你可能感兴趣的:(Hive)