hive 优化

  • 数据倾斜万能的方法:
    hive.groupby.skewindata=true
    这个环境变量是用于控制负载均衡
hive 优化_第1张图片
数据倾斜的解决办法:设置负载均衡

案例:双11的数据特别多,别的时间的任务很少,处理双11的reduce跑不完,总挂掉重启。分几个reduce跑,时间可能长一点,但是可以跑的完。正常是一拆2,如果还不行,就是2拆4

hive 优化_第2张图片
数据倾斜之大大表关联
hive 优化_第3张图片
数据倾斜之空间换时间

补充资料:
https://blog.csdn.net/zj360202/article/details/38420575

你可能感兴趣的:(hive 优化)