Hadoopo-MapReduce(数据处理)

认识Hadoop

Hadoop是Apache基金会下一个分布式的开源计算平台。
Hadoop可使用户在不了解分布式底层细节的情况下,使用简单的编程模型通过廉价PC的集群处理海量数据。
以Hadoop分布式文件系统(Hadoop Distrributed File System,HDFS)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop,为用户提供了系统底层细节透明的分布式基础架构。
对于Hadoop集群而言,其节点可分为两大类角色:Master(主节点)和Salve(从节点)。一个HDFS集群是由一个NameNode(名称节点)和若干个DateNode(数据节点)构成的。NameNode作为主服务器,管理文件命名系统空间和客户端对文件系统的访问操作;集群中的DateNode管理存储的数据。
基于HDFS,MapReduce框架实现了工作调度(分发、跟踪、执行等)、分布式计算、负载均衡、容错处理以及网络通信等复杂问题,并把处理过程高度抽象为两类函数:map和reduce,其中map负责把任务分解成多个任务,reduce负责把分解后多任务处理的结果汇总起来。
Hadoop2.0以后引入了资源管理系统YARN。YARN在主体上采用主/从(master/slave)结构,其中,master被称为ResourceManager(资源管理器,RM),salve被称为NodeManager(节点管理器,NM),RM负责对各个NM上的资源进行统一管理和调度。也就是说:YARN负责的

你可能感兴趣的:(Hadoopo-MapReduce(数据处理))