hive优化
https://blog.csdn.net/oracle8090/article/details/80008924
https://blog.csdn.net/B11050101/article/details/78754652
1.hive表关联查询,造成数据倾斜的常见原因,如何解决数据倾斜
2请说明hive中 sort by,order by,cluster by,distribute by 含义
3移动平均怎么求
4RDD,DataFrames,DStream区别
5.hive 所有的join
inner ,left join right join full join 不说了
left semi join 是 in/exists 更高效的写法 hive没有这种 in 语法 和inner join 最大的区别是 如果a是主表 b是从表 b有重复记录的话 inner会出来多条,但是 left semi join 只会有一条
map-side join:hive可以在map端执行连接过程(对于在join时有一个是小表的情况)
使用map-side join,需要配置下:
(1)hive0.7版本之前,需要加/*+ mapjoin(表名) */
select /*+ mapjoin(d) */ s.ymd,d.dividend from stocks s join dividends d
on s.ymd=d.ymd and s.symbol=d.symbol
where s.symbol=’AAPL
(2)hive0.7版本开始,设置hive.auto.convert.join=true
hive.auto.convert.join=true
hive.mapjoin.smalltable.filsize=25000000 --使用这个优化的小表的大小(单位:字节)--注意:右外连接和全外连接不支持这个优化
---------------------
作者:Terry_dong
来源:CSDN
原文:https://blog.csdn.net/sjyttkl/article/details/80033615
版权声明:本文为博主原创文章,转载请附上博文链接!
6.查看hdfs文件大小的命令
hadoop fs -du -h
hadoop fs -count
7.hive 用法 groupingsets
hive> select city,type,sum(num),GROUPING__ID from
> (select '北京' as city,'生鲜' as type, 1 num
> union all
> select '北京' as city,'标品' as type, 1 num
> union all
> select '上海' as city,'生鲜' as type, 1 num
> union all
> select '上海' as city,'标品' as type, 1 num) a group by city,type
> grouping sets (city,(city,type)) ;
上海 NULL 2 1
上海 标品 1 3
上海 生鲜 1 3
北京 NULL 2 1
北京 标品 1 3
北京 生鲜 1 3
8.hive 转mr原理
https://blog.csdn.net/oracle8090/article/details/81090108