hive join 很慢

hive跑的很慢原因解析:背景如下将下面4个表join起来,然后在做聚合操作
select count(1) from customer_merchant_anti_fraud_demand1_1 – 19864656 – 825475
select count(1) from customer_merchant_anti_fraud_demand1_2 – 29907145 – 1178094
select count(1) from customer_merchant_anti_fraud_demand1_3 – 27803787 – 1175149
select count(1) from customer_merchant_anti_fraud_demand1_4 – 29907145 – 1178094

发现任务跑的非常慢,然后加上一些where条件还是慢,因为数据量很大,关联需要发放数据就很慢。然后我是将会每一个表先做聚合,然后再连接,这样快了很多。还有一点需要注意:做join操作时要验证关联字段的唯一性。

你可能感兴趣的:(hive,hadoop,数据仓库)