1、reduce 的个数:先看一下跑hive时出现的参数:
in order to change the average load for a reducer (in bytes):
set hive.exec.reducers.bytes.per.reducer=
(1)、可以设定number的大小来调整reduce个数;每当数据量大于number时就会多产生一个reduce
(2)、In order to limit the maximum number of reducers:
set hive.exec.reducers.max=
指定reducer的最大个数,如果同时指定了 set hive.exec.reducers.bytes.per.reducer =
set hive.exec.reducers.max =
(3)、In order to set a constant number of reducers:
set mapreduce.job.reduces=
指定 set mapreduce.job.reduces =
2、where 条件使得 group by 冗余
在写代码时,where已经限定了条件,此时不需要group by ,加上会增加运行的负担(group by 会进行分区,会运行多个reduce,增加不必要的损耗)
3、只有一个reduce情况
(1)、没有group by :即使设置了reduce的个数也不会变;
(2)、order by:全局排序只产生一个reduce
(3)、笛卡尔积:单纯的两个表join时(没有 on 条件)会发生笛卡尔积,此时只有一个reduce
4、map join :
select /*+ MAPJOIN(a) +*/ a.product_id,b.aisle from a join b on xxx
map join的使用条件;
(1)、当发生小表 join 大表时,可以mapjoin(小表)将小表存入内存中,在map端join(0.7之前需要加
/*+ MAPJOIN(a) +*/ ,0.7之后由参数hive.auto.convert.join=true控制);小表的阈值:
set hive.mapjoin.smalltable.filesize = 25000000 (25M)
设置可以使用多大的内存来存储数据(默认为内存的0.55):
set hive.mapjoin.followby.gby.localtask.max.memory.usage = 0.55
(2)、当两个表不等值连接时,也经常使用mapjoin
5、union all / distinct == union
union all 与 union 用于将多个select查询语句结果合并到一个结果里(union 将查询到的结果去重)
union all 不会去重,但在查询时加上distinct有同样的效果。
因为union要进行重复值扫描,所以效率比 union all/distinct 低。
6、数据倾斜
set hive.groupby.skewindata = true
当出现数据倾斜时,设置hive.groupby.skewindata = true 可将一个mapreduce任务拆分成两个
使用情景:凌晨定时任务,需要报表;洗出来的基本表
7、MR 的数量
1个MR:
select
ord.order_id order_id,
tra.product_id product_id,
pri.reordered reordered
from orders ord
join trains tra on a.xx=b.xx
join priors pri on a.xx=c.xx
2个MR
select
ord.order_id,
tra.product_id,
pro.aisle_id
from orders ord
join trains tra on a.xx=b.xx
join products pro on b.xx=c.xx
/*+ STREAMTABLE(a) */ 指定一个大表
8、设置mapreduce是同步执行还是异步执行
set hive.exec.parallel=true
(1)、同步执行:map执行完再执行reduce
(2)、异步执行:map和reduce一起执行
9、怎么定位哪几个key发生倾斜:
可以使用分桶:bucket然后sample抽样