大数据之HIVE的优化

理解 hadoop 的核心能力，是 hive 优化的根本

长期观察Hadoop处理数据的过程，有几个显著的特征：

1.不怕数据多，就怕数据倾斜。

2.job数量过多会导致运行效率变慢，mapreduce的初始化时间较长。

3.count(distinct)效率很低。

HIVE的优化

优化可以从以下几个方面入手

1.模型设计

2.处理数据倾斜

3.减少job的数量

4.设置maptask和reducetask的数量

5.set hive.groupby.skewindata=true，这是通用的算法优化，但是算法优化总是漠视业务，通过业务逻辑解决倾斜的方法往往更精确，更有效。

6.不使用count(distinct)。

7.对小文件进行合并。

8.单个最优不如整体最优。

优化案例

案例一：

不同数据类型id的关联会产生数据倾斜问题

日志表和商品表关联，商品表中的id有bigint类型也有string类型，但是日志表中的数字id是string类型，日志表中的商品id转化成数字id做hash来分配reduce，这样就会导致字符串id的日志都到一个reduce中去。

解决方案：

Select * from log a

Left outer join auctions b

On a.auction_id = cast(b.auction_id as string);

案例二：

丢失的数据不应该参与关联

select *

from log a

left join users b

on case when a.user_id is null then cancat('hive',rand())

else a.user_id=a.user_id end;

空值不参与关联，不影响最终结果

hadoop 通用关联的实现方法：二次排序

案例三：

hive对union all的优化

select * from

(select * from t1

Group by c1,c2,c3

Union all

Select * from t2

Group by c1,c2,c3) t3

Group by c1,c2,c3;

上面的sql语句可以改写为

select * from

(select * from t1

Union all

Select * from t2

) t3

Group by c1,c2,c3;

数据是一致的，mr的任务从3个减到1个。

t1 相当于一个目录，t2 相当于一个目录，那么对 map reduce 程序来说，t1,t2 可以做为 map reduce 作业的 mutli inputs。那么，这可以通过一个 map reduce 来解决这个问题。

案例四：

hive在union all上的优化更智能

多个表查询union all时，可以转化为：

Select * from (t1 union all t4 union all t5) ;

union all 目前的优化只局限于非嵌套查询

案例五：

（表a的f1字段关联表b的f2字段） union all （表a的f1字段关联表b的f3字段）

可以改写为：

Select * from effect a

Join (select auction_id as auction_id from auctions

Union all

Select auction_string_id as auction_id from auctions

) b

On a.auction_id = b.auction_id。

案例六：

小表关联大表时，如果小表很大，不会启动mapjoin，需要特殊处理

Select * from log a

Left outer join members b

On a.memberid = b.memberid.

改写为：

Select * from log a

Left outer join (

select d.*

From (select distinct memberid from log ) c

Join members d

On c.memberid = d.memberid

) x

On a.memberid = b.memberid。

本质：大表join大表=>大表join小表

1.common join

启用两个map作业读取两张表 ,然后经由reducer合并。

2.map join

首先在本地生成一个local task 读取比较小的表dept，然后将表写入Hash Table Files ，上传到HDFS的缓存中，然后启动一个map作业，每读取一条数据，就与缓存中的小表进行join操作，直至整个大表读取结束。

案例七：

解决数据倾斜的通用方案

Select * from log a

Left outer join (

select memberid, number

From members d

Join num e

) b

On a.memberid= b.memberid

And mod(a.pvtime,30)+1=b.number；

Num 表只有一列 number，有 30 行，是 1,30 的自然数序列。就是把 member 表膨胀成

30 份，然后把 log 数据根据 memberid 和 pvtime 分到不同的 reduce 里去，这样可以保证

每个reduce分配到的数据可以相对均匀。

通用的hive优化：倾斜的数据用 map join,不倾斜的数据用普通的 join

总结：

1.join优化

2.通过left semi join实现hive中的（not）in

3.合并小文件，设置maptask和reducetask的数量

4.group by优化

5.分区，分桶，索引

6.查看执行计划，并行执行（相互之间没有依赖关系）

7.hive的jvm重用

8.严格模式和本地模式

9.limit的优化

10.对数据倾斜的处理

大数据之HIVE的优化

HIVE的优化

优化案例

案例一：

案例二：

案例三：

案例四：

案例五：

案例六：

案例七：

总结：

你可能感兴趣的:(大数据之HIVE的优化)