hive 中笛卡尔积的优化 (大表/小表)

目录

        • 笛卡尔积处理
        • 测试案例

笛卡尔积处理

当Hive设定为严格模式(hive.mapred.mode = strict)时,不允许在HQL语句中出现笛卡尔积,这实际说明了Hive 对笛卡尔积支持较弱。因为找不到 join key, Hive只能使用一个reducer 来完成笛卡尔积。

当然也可以使用 limit 的办法来减少某个表参与 join 的数据量,但对于需要笛卡尔积语义的需求来说,经常是一个大表和一个小表的join操作,结果仍然很大,以至于无法用单机处理,这时Map Join才是最好的解决办法。Map Join , 顾名思义,会在Map 端完成 join 操作。这需要将Join 操作的一个表或多个表读入内存。

PS: Map Join在子查询中可能出现未知BUG。( 注意限定 join key的范围 )在大表和小表做笛卡尔积时,规避笛卡尔积的方法是,给Join 添加一个Join key,原理很简单,将小表扩充一列 Join key, 并将小表的条目复制数倍,join key 各不相同; 将大表扩充一列 Join key 为随机数。

精髓就在于复制几倍,最后就有几个 reduce 来做,而且大表的数据是前面小表扩张 key 值范围里面随机出来的,所以复制了几倍n, 就相当于这个随机范围就有多大n, 那么相应的,大表的数据就被随机地分配了 n 份。并且最后处理所用的 reduce 数量也是 n , 而且也不会出现数据倾斜。

注意使用这个最好把默认的自动mapjoin关掉,set hive.auto.convert.join=false,另外就是最好手动设置一下reduce的数量,若复制十倍,set mapred.reduce.tasks = 10,这样比较保险,但是reduce数量也不是越大越好。

测试案例

对小表 tmp_id 扩容, 产出一张表:

-- tmp_id 存放 1-100 的数字
create table tmp_id 
(
	id int comment '扩容n' 
);

create table tmp_id_arr as 
select id, split("1,2,3,4,5,6,7,8,9,10", ",") as num_arr 
from tmp_id;

create table tmp_id_result as 
select id, num_key
from tmp_id_arr 
lateral view explode(num_arr) tb_view as num_key;

对大表,加一列 1-10 的随机数,作为和小表 tmp_id_result 关联的 Join key:

create table tmp_big 
(
	id int;
	name string;	
);

create table tmp_big_result as 
select id, name, ceiling(rand()*9) as num_key 
from tmp_big;

关联sql :

set hive.auto.convert.join=false;
set mapred.reduce.tasks = 10;

create table final_result as 
select * from 
tmp_big_result a join tmp_id_result b 
on a.num_key = b.num_key;

这样,final_result 就扩容了100倍,结合本篇文章和前面的文章 join数据倾斜优化. 食用更佳。

你可能感兴趣的:(hive,大数据,hive)