当Hive设定为严格模式(hive.mapred.mode = strict)时,不允许在HQL语句中出现笛卡尔积,这实际说明了Hive 对笛卡尔积支持较弱。因为找不到 join key, Hive只能使用一个reducer 来完成笛卡尔积。
当然也可以使用 limit 的办法来减少某个表参与 join 的数据量,但对于需要笛卡尔积语义的需求来说,经常是一个大表和一个小表的join操作,结果仍然很大,以至于无法用单机处理,这时Map Join才是最好的解决办法。Map Join , 顾名思义,会在Map 端完成 join 操作。这需要将Join 操作的一个表或多个表读入内存。
PS: Map Join在子查询中可能出现未知BUG。( 注意限定 join key的范围 )在大表和小表做笛卡尔积时,规避笛卡尔积的方法是,给Join 添加一个Join key,原理很简单,将小表扩充一列 Join key, 并将小表的条目复制数倍,join key 各不相同; 将大表扩充一列 Join key 为随机数。
精髓就在于复制几倍,最后就有几个 reduce 来做,而且大表的数据是前面小表扩张 key 值范围里面随机出来的,所以复制了几倍n, 就相当于这个随机范围就有多大n, 那么相应的,大表的数据就被随机地分配了 n 份。并且最后处理所用的 reduce 数量也是 n , 而且也不会出现数据倾斜。
注意使用这个最好把默认的自动mapjoin关掉,set hive.auto.convert.join=false,另外就是最好手动设置一下reduce的数量,若复制十倍,set mapred.reduce.tasks = 10,这样比较保险,但是reduce数量也不是越大越好。
对小表 tmp_id 扩容, 产出一张表:
-- tmp_id 存放 1-100 的数字
create table tmp_id
(
id int comment '扩容n'
);
create table tmp_id_arr as
select id, split("1,2,3,4,5,6,7,8,9,10", ",") as num_arr
from tmp_id;
create table tmp_id_result as
select id, num_key
from tmp_id_arr
lateral view explode(num_arr) tb_view as num_key;
对大表,加一列 1-10 的随机数,作为和小表 tmp_id_result 关联的 Join key:
create table tmp_big
(
id int;
name string;
);
create table tmp_big_result as
select id, name, ceiling(rand()*9) as num_key
from tmp_big;
关联sql :
set hive.auto.convert.join=false;
set mapred.reduce.tasks = 10;
create table final_result as
select * from
tmp_big_result a join tmp_id_result b
on a.num_key = b.num_key;
这样,final_result 就扩容了100倍,结合本篇文章和前面的文章 join数据倾斜优化. 食用更佳。