hive 查询执行分析

http://blog.fens.me/hadoop-hive-roadmap/

http://blog.fens.me/hadoop-hive-10g/

http://shiyanjun.cn/archives/588.html

http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842821.html

group by 的实现 

http://ju.outofmemory.cn/entry/785

若只有一个reduce 那么结果是按照key全排序的

若有若干个reduce 那么结果是部分排序 


inner join 的实现

http://ju.outofmemory.cn/entry/786


inner join 内连接

left out join ,right out join ,full outer join 是外连接


内连接 和 外连接 都是叫做reduce端连接 通过给map的输出加标记 来实现的


半连接 left semi join   http://www.kankanews.com/ICkengine/archives/95244.shtml

对待右表中重复key的处理方式差异:因为 left semi join 是 in(keySet) 的关系,遇到右表重复记录,左表会跳过,而 join on 则会一直遍历

mapjoin 提示  : map 端连接   问题是对待重复的key怎么办?

http://my.oschina.net/leejun2005/blog/95186

on 子句的过滤条件 作用于表的扫描阶段 

where 子句的过滤条件 作用于 连接之后的结果 两者不同


你可能感兴趣的:(hive 查询执行分析)