Hadoop学习入门笔记

1、任务执行过程分为 map -> combiner -> shuffle -> reduce

其中combiner合并函数、shuffle混洗是可选的,甚至reduce也可以没有

2、hadoop一般使用hdfs的数据分块大小,避免跨节点读取数据

3、hadoop会在数据源本地节点进行map计算

4、reduce接收多个map的输出结果,从而会造成节点间数据的传输

5、合并函数需要是分布式的,其必须不能影响reduce的输出结果

6、Shuffle函数通常用hash方法,高效

7、Hadoop支持多种语言,只要支持标准输入和输出的均可(Hadoop streaming),比如ruby、python等。C++通过Pipes支持,C++的程序不能在本地模式下运行,因为用到hdfs特性


示意图


你可能感兴趣的:(Hadoop学习入门笔记)