数仓面试题

hive优化

https://blog.csdn.net/oracle8090/article/details/80008924

https://blog.csdn.net/B11050101/article/details/78754652

1.hive表关联查询,造成数据倾斜的常见原因,如何解决数据倾斜

2请说明hive中 sort by,order by,cluster by,distribute by 含义

3移动平均怎么求

4RDD,DataFrames,DStream区别

5.hive 所有的join

inner ,left join  right join full join 不说了

left semi join 是 in/exists 更高效的写法 hive没有这种 in 语法 和inner join 最大的区别是 如果a是主表 b是从表 b有重复记录的话 inner会出来多条,但是 left semi join 只会有一条

map-side join:hive可以在map端执行连接过程(对于在join时有一个是小表的情况)

 使用map-side join,需要配置下:

(1)hive0.7版本之前,需要加/*+ mapjoin(表名) */

select /*+ mapjoin(d) */ s.ymd,d.dividend from stocks s join dividends d

on s.ymd=d.ymd and s.symbol=d.symbol

where s.symbol=’AAPL

(2)hive0.7版本开始,设置hive.auto.convert.join=true

hive.auto.convert.join=true

hive.mapjoin.smalltable.filsize=25000000    --使用这个优化的小表的大小(单位:字节)--注意:右外连接和全外连接不支持这个优化
--------------------- 
作者:Terry_dong 
来源:CSDN 
原文:https://blog.csdn.net/sjyttkl/article/details/80033615 
版权声明:本文为博主原创文章,转载请附上博文链接!

6.查看hdfs文件大小的命令

hadoop fs -du -h

hadoop fs -count 

7.hive 用法 groupingsets

hive> select city,type,sum(num),GROUPING__ID  from 
    > (select '北京' as city,'生鲜' as type, 1 num
    > union all 
    > select '北京' as city,'标品' as type, 1 num
    > union all
    > select '上海' as city,'生鲜' as type, 1 num
    > union all  
    > select '上海' as city,'标品' as type, 1 num) a group by city,type
    > grouping sets (city,(city,type)) ;

上海    NULL   2    1
上海    标品     1    3
上海    生鲜     1    3
北京    NULL   2    1
北京    标品     1    3
北京    生鲜     1    3

 

8.hive 转mr原理

https://blog.csdn.net/oracle8090/article/details/81090108

你可能感兴趣的:(大数据面试)