Python海量数据处理之_Hadoop（二）概念和原理

1. 说明

Hadoop是个分布式的架构，它将海量数据处理工作分配到集群中的多个机器上运行。前篇介绍了Hadoop的安装，在安装过程中会产生一些疑问，比如NameNode是什么东西？本篇就以问题&解答的方式介绍Hadoop的相关概念及其原理。

2. NameNode，DataNode，以及Secondary NameNode

把Hadoop分为HDFS和MapReduce。HDFS为数据提供了存储，MapReduce为数据提供了计算。
NameNode，DataNode以及Secondary NameNode都是属于存储部分，NameNode主要负责管理元信息，如文件名，目录结构，属性，数据块存储位置等等。DataNode负责数据块的具体存取。SecondaryNameNode是NameNode的辅助工具，有两个作用，一是镜像备份，二是日志与镜像的定期合并，注意：它并不是NameNode的备份。

3. ResourceManager与NodeManager

ResourceManager和NodeManager属于计算部分，ResourceManager负责集群中所有算力的统一管理和分配，NodeManager是每台机器上的代理，负责容器管理，并监控它们的资源使用情况，以及向ResourceManager提供资源使用报告。

4. MapReduce与YARN

Hadoop将MapReduce框架升级到YARN（也叫MapRecudeV2）。原来MapReduce分为JobTracker和NodeTracker，分别用于分配集群中所有任务和管理单机任务；而YARN改为ResourceManager和NodeManager，也分别针对主按和单机，但YARN对每个应用都建立了ApplicationMaster，它可以分布在ResourceManager以外的机器上，从而缓解了主控的压力。

5. Master与slave

Master和salve指的是集群中各台主机主控或从属的特性，即它们在hadoop中扮演的角色（每台主机就好比一个人），一个集群中只有一个master（领导小组），它可以分布在一台或多台机器上（好比主管存储的领导和主管计算的领导可以同一个人，也可以是不同的人），
Salve（群众）可以有很多，slave机器上主要部署NodeManager和DataNode（作为群众干具体活，一个群众可以干一样或多样工作，全部工作由群众分担），而在Master上部署NameNode和ResourceManager（作为领导分配任务），master如有多余算力，也可部署NodeManager和DataNode（领导也可以干点具体活）。
如果只有一台机器，可以把所有功能都让它实现，这就是伪分布式，如果机器多负荷大，可以把每种工作分配给专门的机器。需要注意的是管理的角色NameNode和ResourceManager只能各有一个。就好像一样事儿好几个领导同时管就乱了。

6. 集群中多台服务器如何配置

无论是master还是slave都需要安装JDK和Hadoop，以及配置ssh及环境变量，但配置文件和启动方式不同；并且只在master上做格式化。

7. 程序如何读取数据

分布式文件系统，算力和存储都分布在多个机器上。NameNode为数据存储提供统一的接口以便读写，具体在core-site.xml中设置。
在程序层面，通过Hadoop的数据流(streaming)进行流式处理，它有点像linux的管道机制，程序从标准输入stdin读入，写入标准输出stdout（在处理过程中请尽量保持流式，不要一次load太多到内存）。相对来说它更适合处理像字符串一样的流式数据，而非大规律数据的统计。除了直接读数据流，Python还提供封装工具，如mrjob，dumbo，hadoopy，pydoop等等，使读写更加方便。

8. 程序如何切分运算量

Map可以开一个到多个，reduce也可以开一个到多个，具体根据业务逻辑分配。

9. 数据挖掘可否分布计算

Mahout是Hadoop家族中的成员，是基于一个Hadoop的机器学习和数据挖掘的分布式计算框架。

10. Hadoop与Spark

Hadoop是分布式数据处理的低层次抽象，通用，强壮，且保守，它使用HDFS存储，支持复杂的大规模数据。
Spark是一个新兴的大数据处理的引擎，是分布式大数据处理的高层次抽象。提供了除map和reduce之外更多的运算符，这些操作是通过一个称作弹性分布式数据集(resilient distributed datasets, RDDs)的分布式数据框架进行的。它主要使用内存存储，用于快速处理。
Hadoop的YARN还可与Spark结合使用。

11. Hadoop与Zookeeper

在集群的管理中Zookeeper负责分布式系统的协调工作。不仅适用于Hadoop集群，在其他的集群中也常被用到，比如此前介绍过的实现矿机集群的Zookeeper&Kafka。Zookeeper主要解决处理分布式应用的“部分失败”问题（比如某个关链节点宕机了），使集群更加稳定地工作。