hadoop 联合 join操作

hadoop join操作类似于sql中的功能,就是对多表进行取子集并合并一起。其中有很多工具已经可用,如pig,hive,cascading.

 

map端联接

 

 

reduce端联接

同样,就 是联接处理时在reduce端。那么有哪些步骤呢?(讨厌原书的翻译者把它译作几种方法!)

1.由于在reduce端处理,必须会考虑到多输入问题,即多表。于是MultiInputs必须的;

2.排序,分组。因为先排序,这样在处理时就可以为分组服务了,而分组是最終目标,即将相同key所附属的values连接起来。

 

由于书本上没有说明排序,搞得我以为按它说的直接使用secondary sort就可以了。这样是错误的。

 

 

see also

hadoop几种排序简介


你可能感兴趣的:(hadoop)