Hadoop笔记

1.Hadoop 从三个角度将主机划分为二种角色。

第一,最基本划分为Master和Slave;

第二,从HDFS角度上,划分为NameNoe(目录管理者)和DataNode;

第三,从MapReduce角度上,划分为JobTracker和TaskTracker.

2.Hadoop三种运行方式:

 单机模式:无需配置,单进程,用于调试;

 伪分布式:一个节点的集群,配置简单

 完全分布式:

3.起于2002 Apache Nutch.06年独立,HDFS + MapRedue 。HDFS高容错,数据管理,基于Java,移植。MapReduce 处理任务高效及开源。  可靠,可扩展,高效,高容错。

08.02 Yahoo 2000个节点上1W个Hadoop虚拟机处理5PB网页。

4.特点原理:

 数据分布存储;NameNode ,DataNode HDFS block; 64MB

 分布式并行计算;主控JobTracker,用户提交的计算叫Job,每一个Job会被划分成若干个Tasks,JobTracker负责Job和Tasks的调度,而TaskTracker负责执行Tasks;

 本地计算,数据存储在哪台上,就在哪台上执行;

 任务粒度;64MB,M个小数据集,M个Map任务;

 数据分割, Hash(key) mod R;

 数据合并,对中间结果合并;

 Reduce,形成最终结果文件 ;

 任务管道,结果成为另一个计算任务的输入,开始下一个任务。

5.MapReduce 是大规模数据(TB)计算的利器,Map和Reduce是它的主要思想,来源于函数式编程语言,原理:

 Map负责将数据打散,Reduce负责将数据进行聚集,用户只需要实现map和reduce二个接口,即可完成TB级数据的计算,常见的应用包括:日志分析,数据挖掘等数据分析应用,还有科学数据计算等。

你可能感兴趣的:(hadoop)