hive的数据倾斜问题

hive的数据倾斜问题

1.什么是数据倾斜

数据倾斜是我们在进行分布式计算的时候,某些节点的计算能力较强或需要计算的数据量很少,早早的执行完了;而某些节点的计算能力较差或此节点需要计算的数据较多,导致出现其他节点的reduce阶段任务执行完成,但是这种节点的数据处理任务还没有执行完成

2.数据倾斜产生的现象

如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。

3.产生数据倾斜的原因及解决方案

(1)group by
**原因:**当我们使用hive对一些数据类型进行统计的时候,会遇到某些类型的数据过多,但某些类型的数据特别少。当按照类型进行group by的时候,会将相同的group by字段的reduce任务需要的数据拉取到同一个节点进行聚合,而当其他组的计算已经完成而这里的计算还没完成,其他节点就要一直等待这个节点任务执行完成,所以会看到一直map 100% reduce 99%的情况。
解决办法: set hive.map.aggr=true
       set hive.groupby.skewindata=true
原理:hive.map.aggr=true 这个配置项代表是否在map端进行聚合
 hive.groupby.skewindata=true 当选项设定为 true,生成的查询计划会有两个MR Job。第一个 MR Job 中,Map 的输出结果集合会随机分布到 Reduce 中,每个 Reduce 做部分聚合操作,并输出结果,这样处理的结果是相同的 Group By Key 有可能被分发到不同的 Reduce 中,从而达到负载均衡的目的;第二个 MR Job 再根据预处理的数据结果按照 Group By Key 分布到 Reduce 中(这个过程可以保证相同的 Group By Key 被分布到同一个 Reduce 中),最后完成最终的聚合操作。
(2)map和reduce优化
1)当出现小文件过多,需要合并小文件。可以通过set hive.merge.mapfiles=true来解决。
2)单个文件大小稍稍大于配置的block块的大写,此时需要适当增加map的个数。解决方法:set mapred.map.tasks个数
3)文件大小适中,但map端计算量非常大,如select id,count(),sum(case when…),sum(case when…)…需要增加map个数。解决方法:set mapred.map.tasks个数,set mapred.reduce.tasks个数
(3)多表关联
1)大表和小表关联:使用map join将小表加载到内存中,在map端完成reduce,直接拿另一表中的数据与内存中的数据进行匹配。
2)大表和大表关联:当join的字段有数据为空时,如表一的id要和表二的id进行关联
   解决方法1:id为空的不参与关联
   select * from log a
      join users b
      on a.id is not null and a.id = b.id
       union all
       select * from log a
      where a.id is null;
解决方法2:给空值分配随机的key值
      如:select * from log a
        left outer join users b
        on
        case when a.user_id is null
        then concat(‘hive’,rand() )
        else a.user_id end = b.user_id;

(4)当hive中包含count(distinct)时
如果数据量非常大,执行如select a,count(distinct b) from t group by a;类型的SQL时,会出现数据倾斜的问题。
解决方法:使用sum…group by代替。如select a,sum(1) from (select a, b from t group by a,b) group by a;
参考文献:
【1】https://blog.csdn.net/liminghui4321/article/details/102846322

你可能感兴趣的:(SQL)