MapReduce2架构设计(YARN工作流程(MR提交应用程序))

    前言:MapReduce是一种可用于数据处理的编程模型。该模型比较简单,但是要写出有用的程序缺不太容易。本篇文章主要介绍MapReduce2(YARN),会附带介绍MapReduce1的架构。

    狭义的hadoop包含:HDFS、MapReduce和YARN,在目前的生产作业中,MapReduce已经逐渐被代替,但其架构思想还是值得学习的,后来出现的一些架构,也都是参考MapReduce架构;HDFS作为分布式存储,目前使用依然有前景;YARN主要是资源和作业调度。

    MapReduce版本简介:

MapReduce1:MapReduce1主要在Hadoop1.x中使用,该版本的MapReduce负责计算及资源和作业调度。

MapReduce2:MapReduce2主要在Hadoop2.x中使用,该版本的MapReduce只负责计算,但是没有进程,因为MapReduce运算在YARN平台上进行。资源和作业调度已经被YARN所负责。

一、MapReduce1架构

MapReduce2架构设计(YARN工作流程(MR提交应用程序))_第1张图片

Client:客户端

JobTracker:主要负责资源监控款里和作业调度

a.监控所有TaskTracker 与job的健康状况,一旦发现失败,就将相应的任务转移到其他节点;

b.同时JobTracker会跟踪任务的执行进度、资源使用量等信息,并将这些信息告诉任务调度器,而调度器会在资源出现空闲时,选择合适的任务使用这些资源。

TaskTracker:是JobTracker与Task之前的桥梁

a.从JobTracker接收并执行各种命令:运行任务、提交任务、Kill任务、重新初始化任务;

b.周期性地通过心跳机制,将节点健康情况和资源使用情况、各个任务的进度和状态等汇报给JobTracker。

Task Schedule:任务调度器(默认 FIFO,先按照作业的优先级高低,再按照到达时间的先后选择被执行的作业)

Map Task:映射任务

Reduce Task:规约任务

二、MapReduce2架构

MapReduce2架构设计(YARN工作流程(MR提交应用程序))_第2张图片

任务流程:

  1. 用户向YARN中提交应用程序,其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。
  2. ResourceManager为该应用程序分配第一个Container,并与对应的Node-Manager通信,要求它在这个Container中启动应用程序的ApplicationMaster。
  3. ApplicationMaster首先向ResourceManager注册,这样用户可以直接通过ResourceManage查看应用程序的运行状态,然后它将为各个任务申请资源,并监控它的运行状态,直到运行结束,即重复步骤4~7。
  4. ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请和领取资源。
  5. 一旦ApplicationMaster申请到资源后,便与对应的NodeManager通信,要求它启动任务。
  6. NodeManager为任务设置好运行环境(包括环境变量、JAR包、二进制程序等)后,将任务启动命令写到一个脚本中,并通过运行该脚本启动任务。
  7. 各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度,以让ApplicationMaster随时掌握各个任务的运行状态,从而可以在任务失败时重新启动任务。在应用程序运行过程中,用户可随时通过RPC向ApplicationMaster查询应用程序的当前运行状态。
  8. 应用程序运行完成后,ApplicationMaster向ResourceManager注销并关闭自己。

    当用户向YARN提交一个应用程序后,YARN整个流程的归纳就是:(1)启动ApplicationMaster(2)由ApplicationMaster创建应用程序,为它申请资源,并监控它的整个运行过程,知道运行完成。

PS:第一个Container容器是为MR App Mstr申请的

你可能感兴趣的:(Hadoop)