初识YARN

MapReduce自hadoop-0.23版本后进行了彻底修改,现在的MampReduce,称为MapReduce 2.0(MRv2)或者YARN.
MRv2的基本想法是把JobTracker的两个基础功能,资源管理(resource management)和任务调度监控(job scheduling/monitoring),拆分成两个独立的后台进程。因此,这个想法形成了有一个全局资源管理器(ResourceManager, RM)和针对应用的应用掌控者(ApplicationMaster,AM),这里说的应用既可以是单个传统意义上的MapReduce job也可以是一个无回路有向图(DAG) job。

在YARN计算框架中有资源管理器,每个slave节点上有节点管理(NodeManager, NM),资源管理器拥有最高权力,管理系统中的所有应用。
框架给每个应用分配一个应用掌控者(ApplicationMaster),实际上,它是一个指定库,从资源管理器协商资源,并和NodeManage一起执行并监控任务。

初识YARN_第1张图片

资源管理器有两个主要的组件:调度器(Scheduler)和应用管理器(ApplicaionManager)
调度器负责让各种应用服从于队列容量的限制,这种场合下,调度器只是调度,不监控不跟踪应用的状态,也不保证重启失败的任务,调度器根据应用的资源需执行调度工作,它抽象出一个由cpu、内存、磁盘、网络等组成资源容器的概念,在第一个版本中,容器只支持内存。

调度器有一个可插拔策略插件,负责在多种队列和应用之间规划群集中的资源。当前MapReduce调度器,如CapacityScheduler和FairScheduler是这种插件的例子。CapacitySchduler支持层级队列,提供更多的群集资源预先分配的特性。
应用管理器负责接收提交的任务,和执行应用的第一容器协商,让其成为这个应用的ApplicationMaster,为ApplicationMaster容器失败时提供重启它的服务。
一个节点,一个节点管理器(NodeManager),负责监控容器的资源(cpu、内存、磁盘、网络等)使用情况并汇报给资源管理器和调度器。
ApplicationMaster负责和调度器协商合适的资源容器,跟踪这些容器的状态,监控其进程。
MRv2维护着和它的前一代稳定版本(hadoop-0.20.205)API的兼容性,这意味着,所有的MapReduce任务仍然可以不用改变就可以在MRv2框架上运行,只是需要编译一下。

@仪山湖

你可能感兴趣的:(初识YARN)