Shuffle简单理解

在这里插入图片描述
Shuffle简单理解_第1张图片
map的结果本身是无序的,但是map输出的结果有序
mapper和reduce是不同的机器,进行了网络传输,所以存在数据拷贝
第二次排序,是将每个reduce对应的task进行排序,然后再进入reduce

maptask运行结束,每个mask块自身排一下序(并行)。先copy到相应的机器,然后再重新进行一次排序。注意,应该是边复制边排序。

你可能感兴趣的:(大数据,hadoop,hadoop)