真正想要掌握Hive的优化,要熟悉相关的MapReduce,Yarn,hdfs底层源码,明晰Hive的底层执行流程。真正让你明白Hive调优系列,会征对下面分类逐一分析演示。
Hive 设定为严格模式(hive.mapred.mode=strict)时,不允许在 HQL 语句中出现笛卡尔积, 这实际说明了 Hive 对笛卡尔积支持较弱。因为找不到 Join key,Hive 只能使用 1 个 reducer 来完成笛卡尔积。
需求1:一个小表join大表,且两个表特殊的是笛卡尔乘积(on true/on 1=1)。小表的数据量2Mb,大表的数据是4Gb左右。实际开发中该段代码跑了3个小时左右
drop table if exists FDM_TMP.TMP_FSA_MULTI_PATH_FUNL_ANALYSE_RSLT_D_21_${hivevar:statis_date};
CREATE TABLE IF NOT EXISTS FDM_TMP.TMP_FSA_MULTI_PATH_FUNL_ANALYSE_RSLT_D_21_${hivevar:statis_date}
stored as rcfile as
SELECT T1.ACCT_NO
,T1.PAGE_ID
,T1.PAGE_NAME
,T1.PAGE_URL
,T1.TRMNL_TYPE
,T1.DEV_ID
,T0.PATH_ID
,T0.UBA_HRCHY
,T0.UBA_HRCHY_LO
,T0.TRANS_CYCLE
,T0.TRANS_RATE_CALC
,T0.CUS_GROUP_NO
,T1.SYS_TYPE
from fdm_tmp.tmp_fsa_multi_path_funl_analyse_rslt_d_01_${hivevar:statis_date} t0 ---小表大概2Mb左右
inner join FDM_DPA.FSA_MULTI_PATH_FUNL_VISIT_URL_HIS_D t1 ----大表大概3.4G
on 1=1 ----------笛卡尔乘积
and t0.comp_cond_type='10010201' --等于
and t0.path_cond_type = '60020204' --页面名称
and t0.UBA_HRCHY= '1' --第一层
where t1.stat_date<='${statisdate}'
and t1.stat_date>=t0.trans_cycle --已将转换周期转换成对应的起始日期
and (t0.Page_Name = t1.page_name or t1.page_id =t0.page_name)
group by t1.acct_no
,t1.Page_ID
,t1.Page_Name
,t1.page_url
,t1.TRMNL_TYPE
,t1.Dev_ID
,t0.path_id
,t0.UBA_HRCHY
,t0.UBA_HRCHY_LO
,t0.trans_cycle
,t0.trans_rate_calc
,T0.CUS_GROUP_NO
,t1.SYS_TYPE
;
优化使用:配置如下参数,使用mapjoin替代common join.当然这里因为group by的原因还是会启动reduce进行去重。但是整体从4个小时优化到1.5小时。一般来说小表join大表一般配置下面四个参数就差不多,当然官方还提供了其他的参数共配置。Hive官网参数配置
1.一般遇到小表join大表,不管是多少个小表,把小表写在前面,开启mapjon,同时适当地调大上面的参数,Mapjoin几乎是解决小表join大表(包括笛卡尔乘积)的最好方式。尤其对于笛卡尔乘积的小表join大表来说,性能差别天壤之别。
2.所谓的mapjoin优化就是在Map阶段完成join工作,而不是像通常的common join在Reduce阶段按照join的列值进行分发数据到每个Reduce上进行join工作。前面我们知道,没有数据分发分布也就不会有数据倾斜的存在。实际上所谓的mapjoin并不是像有些人说的那样只是将小表加载到内存然后跟大表join那么简单,如果那样照样会有reduce的产生,也不会快那么多。而是会将所有的小表全量复制到每个map任务节点,然后再将小表缓存在每个map节点的内存里与大表进行join工作。所以这解释了为啥小表的大小的不能太大的原因,否则复制分发太多反而得不偿失。一般这个值也就几百兆吧。像我们公司每个map的分配的内存才2G,堆内存才1.5G,你要是搞个1个G的小表,直接很容易OOM报错了。
3.在0.7.0版本之前:需要在sql中使用 /*+ MAPJOIN(smallTable) */ 来开启mapjoin,而后则Hive会自动通过配置的参数来判断是否开启mapjoin。
4.对于小表join大表的笛卡尔乘积,还可以通过规避的方法避免:具体比如给 Join的两个表都增加一列Join key,原理很简单:将小表扩充一列join key,并将小表的总数复制数倍,join key 各不相同,比如第一次为1,复制一次joinkey为2,依次类推;将大表扩充一列join key 为随机数,这个随机数为小表里的joinkey的随机值,如1-5的随机值。这样就实现了将一个大表拆分几分同时处理,而且这样小表扩充了几倍,大表就被对应地分成几份处理。这种方式也可以提高笛卡尔乘积小表join大表的性能。
大表join大表一般调优有四种方式具体参考其他博客,但是对于笛卡尔乘积来说,如果是小join大,开启mapjoin性能还不算太差,但要是大join大的笛卡尔乘积那是真可怕。
1.首先要尽量避免笛卡尔乘积,比如HQL无法支持循环,遍历等缺陷,这种情况遇到笛卡尔乘积的可以考虑用spark来替代,或者用UDF来解决,这是首选方案,其他几乎没有更好的处理方案了。