关于hadoop中的排序

转载请注明作者,谢谢支持!


昨天有个面试,问到在MapReduce过程中会发生几次排序?

 

关于hadoop中的排序_第1张图片

如图,应该还是两次排序.

 

第一次应该是在map数据持久化到本地硬盘的时候,这个时候,每次从内存spill之前会做inmemory sort,在map操作完成之前还会对所有spill文件做排序,完成磁盘文件合并。步骤应该是

  1. partition
  1. in momery sort
  2. combine
  1. spill to disk
  1. if(spill文件数>3) combine again
  1. merged into a single partitioned and sortedoutput file

 

第二次排序为shuffle排序,在reduce端拉取各个map数据后对数据做merge排序,这个就简单了

 

问题1 hadoop排序是根据什么值进行比较,来确定排序顺序的。现在有Map数据( 10,3,2)数据将如何排序?

答:hadoop排序应该是按照字典排序。map排序结果为 (10,2,3)

 

问题2combine是否参与排序,如果我将map输出(10,2,3)conbine中改变为(2,10,3),会如何输出?

答:combie不参与排序,如果combine改变排序,则输出就为(2,10,3)

 

问题3:如果有2map,每个map的经过combine输出都为(2,10,3),经过shuffle后如何排序?

答:排序结果为(2,10,2,10,3,3).排序顺序如下,每次排序都会根据所有map的下一个待选值进行比较排序

关于hadoop中的排序_第2张图片

你可能感兴趣的:(hadoop)