Hadoop深入浅出

Hadoop 的整体逻辑过程:

split input ---> map --->sort---> [ combiner(可以理解为小的reduce,例如统计1950年最高天气) ] --->partitioner(按key分组给不同reduce)——>merge所有map的输出--->sort---->reduce---->part-00*

数据的存储位置:map的输入在hdfs里面,而map的输出在本地硬盘;reduce的输出在hdfs中。

hadoop的重要框架——hadoop streaming
需要注意:
1、利用streaming 处理文本时,一般只选用"\t"分隔列,为什么呢?因为map的输出是通过hadoop框架自动拷贝至reduce任务节点的,程序员不参与这个拷贝过程,然后reduce之前,会有一个sort的过程,这个sort默认是根据"\t"分隔的第一列作为键排序的,因此, map的输出最好使用"\t",否则在reduce出来的结果就是不正确的。
2、

你可能感兴趣的:(Hadoop深入浅出)