hadoop的两表join

以前我们做hadoop join的时候,总是在每个数据的表头增加一个tag,然后在reduce中根据tag来区别。

        实际上,我们可以节省这种tag,只需要使用multipleInput,就可以分别处理不同的输入路径。

        而在reduce端,我们不需要读入一个key下面所有的数据,然后再做join。

        http://www.gemini5201314.net/hadoop/hadoop-%E4%B8%AD%E7%9A%84%E4%B8%A4%E8%A1%A8join.html

你可能感兴趣的:(hadoop的两表join)