Hadoop基本原理

Getting Started

Hadoop是一个用于海量数据统计分析的分布式计算框架,封装了分布式计算中比较困难的进程间通信、负载均衡,任务调度等模块,降低了学习门槛。在最简单的程序实现中,仅仅需要重写map和reduce方法,并实现任务提交逻辑。接下来,就让我们一起推开Hadoop的大门,走进大数据的神奇世界。

Hadoop的组成

Hadoop目前主要包括Hadoop1.x和hadoop2.x,两种版本差距较大,目前常用的是Hadoop2.x版本,所以主要基于Hadoop2.x进行讲解

主要组成模块

  • Hadoop Distributed File System(HDFS):分布式文件存储系统。
  • MapReduce:并行计算框架(可以自定义计算逻辑的部分)
  • Yet Another Resource Negotiator(YARN):另一种资源协调者(顾名思义,Hadoop1.x采用的不是这一个资源管理器)

MapReduce的工作机制

Hadoop基本原理_第1张图片
上图是MapReduce的工作原理,首先解释一下各个组成模块的作用。

  1. Job:由客户端向集群提交的一次计算任务。
  2. Task:集群的最小可执行单位(一个Job将会分为多个Task执行)
  3. ResourceManager(以下简称RM):管理整个集群的计算资源,主要用于为每一个Job分配计算资源(整个集群只有一个RM)
  4. Container:资源分配单位,一个Container包括一些CPU和存储资源
  5. NodeManager(以下简称NM):管理单台服务器的计算资源,类似RM的更细粒度实现(集群中每台服务器有一个NM)。
  6. ApplicationMaster(以下简称AM):监控每一个Job的执行情况,包括资源申请、Task调度等。

为了便于理解,下面有一个并不是太恰当的比喻。类似一个学生宿舍的构成,RM相当于宿舍管理处的大BOSS,而Task则相当于一个学生,大BOSS(RM)负责分配一片区域给某个班(Job)的学生(Task)住,而具体每个学生(Task)住哪儿,则由班主任(AM)和楼管(NM)商量(当然一个班级的学生还是可以住在多个楼里边的)。

接下来具体解释图中每一步的作用:

  1. client调用Job提交接口,Job被提交到集群上
  2. 为了便于标识Job,会首先向RM请求一个唯一ID,并同时检查Job中的输入/输出路径是否存在,如果输入路径不存在,则报错;如果输出路径存在,也会报错(注意别看错了)
  3. 获得唯一ID之后,就把Job所需资源(包括Jar包和输入路径信息)上传到HDFS中(因为分布式环境的原因,需要将这些资源上传到所有节点都能访问到的目录,即这里的HDFS)
  4. 在完成以上步骤之后,则可以真正提交Job到集群中。
  5. 启动一个Job的时候,首先需要启动该Job的AM,所以RM会主动分配NM上的一个Container(一个Container就是一个JVM),用于运行AM守护进程。
  6. 初始化Job,包括启动一些Job运行状态跟踪对象。
  7. 从HDFS中读取第3步上传的输入路径信息(包括输入文件所在的服务器节点信息,一份输入文件可能存储在多台服务器上)。
  8. 根据上一步的文件路径信息,向RM申请所需资源(Container),尽量保证Container和输入文件在同一台服务器上边,能够减小网络IO(即数据本地化)
  9. AM根据RM分配的Container,向Container所属的NM申请启动Task。
  10. Container在收到启动命令之后,会首先从HDFS下载Task所需Jar包和缓存文件等
  11. 最后就是Task的正式运行阶段了。

你可能感兴趣的:(hadoop)