(Reference:http://codingjunkie.net/mapreduce-reduce-joins/)。
在所有的join pattern算法中,reduce-side join时最容易实现的。之所以reduce-side joins这么简单直接,是因为Hadoop会默认将具有相同键(Key)的pair发送到同一个Reducer去执行reduce任务,因此,可以认为Reduce数据已经默认为我们组织好了,这一点不需要我们自己在花费更多的经历去处理。为了执行join操作,我们只需要缓存已经读入keys,同时将其与即将读入的keys进行比较。一旦发现读入的key与已存在的key相匹配,就将相应的key对应的values执行join操作。由于hadoop中所有的数据都是通过网络重新洗牌的(since all of the data is shuffled across the network),因此我们需要对reduce-side join的性能进行权衡。我们需要考虑reduce-side join的两种场景:one-to-one和one-to-many。我们同时也在探索在步需要对keys的来源进行跟踪的解决方案,对于一个key的所有values都会被分到reducer的同一个组中去执行。
(Reference:http://codingjunkie.net/mapside-joins/)
Reduce Side Join很容易实现,但是在这种方式需要讲所有的数据都通过网络发送给reducers。Map-Side joins不需要将所有数据发送至reducer端由此可以减少大量的网络带宽花费。但是map-side join并没又reduce-side join灵活,map-side join的执行需要满足非常严格的标准。
Map-side join科执行的条件:
要想进行map-side join,输入数据必须能够满足如下两个条件之一:
A. 需要进行join操作的两个数据集合已经按照相同的key被排好序,同时具有相同的数量的partitions;
B. 在需要进行join操作的两个集合里,又一个较小的可以直接被放到内存中。
MultipleInputs.addInputPath(job, p, SequenceFileInputFormat.class, JoinLogMapper.class);其中job就是你要提交的job!