Hive问题总结

Hive表关联查询,如何解决数据倾斜的问题

倾斜原因:
map 输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特性等原因造成reduce 上的数据量差异太大

  • 1)key分布不均匀
  • 2)业务数据本身的特性
  • 3)建表时考虑不周
  • 4)某些SQL语句本身就有数据倾斜

解决方案:

  • 参数调节
hive.map.aggr = true
hive.groupby.skewindata=true

  有数据倾斜的时候进行==负载均衡==,当选项设定为true,生成的查询计划会有两个MR job:第一个MR Job 中,Map的输出结果集合会==随机分布==到Reduce中,每个Reduce 做部分聚合操作,并输出结果,这样处理的结果是相同的GROUP BY Key有可能被分发到不同的Reduce中,从而达到负载均衡的目的;第二个MR Job再根据预处理的数据结果按照GROUP By Key分布到Reduce中(这个过程可以保证相同的GROUP By Key被分布到同一个Reduce中),最后完成最终的聚合操作

  • SQL 语句调节:
    • 1)选用join key 分布最均匀的表作为驱动表。做好列裁剪和filter 操作,以达到两表做join 的时候,数据量相对变小的效果
    • 2)大小表Join:使用map join 让小的维度表先近内存,在map端完成Reduce
    • 3)大表 Join大表:把空值的key变成一个字符串加随机数,把倾斜的数据分布到不同的reduce上,由于null值关联不上,处理后并不影响最终结果
    • 4) count distinct大量相同特殊值:count distinct 时,将值为空的情况单独处理

Hive的特点是什么

  hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句快速实现简单的MapReduce统计,不必开发专门的MapReduce的应用

Multi-group by 是hive的一个非常好的特性

from A
insert overwrite table B
 select A.a, count(distinct A.b) group by A.a
insert overwrite table C
  select A.c, count(distinct A.b) group by A.c

Hive中的 Sort By,Order By,Cluster By,Distribute By 各代表什么意思

order by:会对输入做全局排序,因此只有一个reducer,只有一个reducer会导致当输入规模较大时,需要较长的计算时间

sort by:不是全局排序,其在数据进入到reducer前完成排序
distribute by:按照指定的字段对数据进行划分输出到不同的reduce中
cluster by: 除了具有distribute by的功能还兼具sort by的功能

参考 https://blog.csdn.net/haohaixingyun/article/details/52819588

你可能感兴趣的:(数据库)