hadoop-Yarn概述

概述

Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在资源利用率、资源统一管理和数据共享等方面带来了巨大好处。

 

YARN的基本思想是将JobTracker的两个主要功能(资源管理作业调度/监控)分离,主要方法是创建一个全局的ResourceManager(RM)和若干个针对应用程序的ApplicationMaster(AM)。这里的应用程序是指传统的MapReduce作业。

 

YARN 分层结构的本质是 ResourceManager。这个实体控制整个集群并管理应用程序向基础计算资源的分配。ResourceManager 将各个资源部分(计算、内存、带宽等)精心安排给基础 NodeManager(YARN 的每节点代理)。

 

ResourceManager 还与 ApplicationMaster 一起分配资源,与 NodeManager 一起启动和监视它们的基础应用程序。在此上下文中,ApplicationMaster 承担了以前的 TaskTracker 的一些角色,ResourceManager 承担了 JobTracker 的角色。

 

ApplicationMaster 管理一个在 YARN 内运行的应用程序的每个实例。ApplicationMaster 负责协调来自 ResourceManager 的资源,并通过 NodeManager 监视容器的执行和资源使用(CPU、内存等的资源分配)。

 

Yarn体系架构图

 

 

YARN的核心思想

将JobTracker和TaskTacker进行分离,它由下面几大构成组件:

a. 一个全局的资源管理器 ResourceManager

b.ResourceManager的每个节点代理 NodeManager

c. 表示每个应用的 ApplicationMaster

d. 每一个ApplicationMaster拥有多个Container在NodeManager上运行

 

YARN的主要架构

ResourceManagerRM

RM是一个全局的资源管理器,负责整个系统的资源管理和分配。它主要由两个组件构成:调度器(Scheduler应用程序管理器(Applications Manager,ASM)。

调度器 调度器根据容量、队列等限制条件(如每个队列分配一定的资源,最多执行一定数量的作业等),将系统中的资源分配给各个正在运行的应用程序。需要注意的是,该调度器是一个“纯调度器”,它不再从事任何与具体应用程序相关的工作,比如不负责监控或者跟踪应用的执行状态等,也不负责重新启动因应用执行失败或者硬件故障而产生的失败任务,这些均交由应用程序相关的ApplicationMaster完成。调度器仅根据各个应用程序的资源需求进行资源分配,而资源分配单位用一个抽象概念资源容器Resource Container,简称Container)表示,Container是一个动态资源分配单位,它将内存、CPU资源封装在一起,从而限定每个任务使用的资源量。

 

应用程序管理器(Applications Manager)负责管理整个系统中所有应用程序,包括应用程序提交、与调度器协商资源以启动ApplicationMaster、监控ApplicationMaster运行状态并在失败时重新启动它等。

 

ApplicationMasterAM

用户提交的每个应用程序均包含一个AM,主要功能包括:

与RM调度器协商以获取资源(用Container表示);

将得到的任务进一步分配给内部的任务(资源的二次分配);

与NM通信以启动/停止任务;

监控所有任务运行状态,并在任务运行失败时重新为任务申请资源以重启任务。

 

NodeManagerNM

NM是每个节点上的资源和任务管理器,一方面,它会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态;另一方面,它接收并处理来自AM的Container启动/停止等各种请求。

 

 

Container

Container是YARN中的资源抽象,它封装了某个节点上的内存、CPU资源,当AM向RM申请资源时,RM为AM返回的资源便是用Container表示。YARN会为每个任务分配一个Container,且该任务只能使用该Container中描述的资源。

 

 

 

相关配置(yarn-site.xml)

 

参数

默认值

yarn.nodemanager.resource.memory-mb

8192(MB)(每台服务nm服务器贡献的内存),工作中,要根据服务器的实际内存来调节。
比如服务器内存:64GB。给操作系统留出8G。还需要考虑这个服务器上是否还运行,比如Hbase。给Hbase留出16GB

剩下的40GB留给yarn

yarn.nodemanager.resource.cpu-vcores

8,cpu核数,根据实际情况来配置,有几核就配置几个。

yarn.scheduler.minimum-allocation-mb

1024(MB),每个Container最小的使用内存量

yarn.scheduler.maximum-allocation-mb

8192(MB),每个Container最大的使用内存量

yarn.scheduler.minimum-allocation-vcores

1,每个Container最少的使用核数

yarn.scheduler.maximum-allocation-vcores

4,每个Container最多使用的核数

mapreduce.map.memory.mb

1024(MB),每个MapTask运行所有的内存大小。此参数如果在Container的下限和上限之间,就用设置的参数值。
如果不在上限和下限范围,就取下限或上限值

mapreduce.reduce.memory.mb

1024(MB)

yarn.resourcemanager.scheduler.class         

org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler
配置Yarn的调度器类型,默认是容器调度器。
另外两种调度器:
①FIFO 调度器
②Fair 调度器

你可能感兴趣的:(hadoop)