一、YARN 介绍
yarn 是下一代 MapReduce,即 MRv2,是在第一代 MapReduce 基础上演变而来的,主要是为了解决原始 Hadoop 扩展性较差,不支持多计算框架而提出的,通俗讲是跑任。
其核心思想:将 MR1 中 JobTracker 资源管理和作业调用两个功能分开,分别由 ResourceManager 和 ApplicationMaster 进程来实现。
- ResourceManager:负责整个集群的资源管理和调度;
- ApplicationMaster:每个应用程序特有,负责单个应用程序的管理,负责应用程序相关事务,比如任务调度、任务监控和容错等。
1.1 MRv1 VS MRv2
- 扩展性差。在 MRv1 中,JobTracker 同时兼备了资源管理和作业控制两个功能,这成为系统的一个最大瓶颈,严重制约了Hadoop集群扩展性。
- 可靠性差。MRv1 采用了master/slave结构,其中,master 存在单点故障问题,一旦它出现故障将导致整个集群不可用。
- 资源利用率低。MRv1 采用了基于槽位的资源分配模型,槽位是一种粗粒度的资源划分单位,通常一个任务不会用完槽位对应的资源,且其他任务也无法使用这些空闲资源。此外,Hadoop 将槽位分为 Map Slot 和 Reduce Slot 两种,且不允许它们之间共享,常常会导致一种槽位资源紧张而另外一种闲置(比如一个作业刚刚提交时,只会运行 Map Task,此时 Reduce Slot闲置)。
- 无法支持多种计算框架。随着互联网高速发展,MapReduce 这种基于磁盘的离线计算框架已经不能满足应用要求,从而出现了一些新的计算框架,包括内存计算框架、流式计算框架和迭代式计算框架等,而 MRv1 不能支持多种计算框架并存。
MRv2:
与 MapReduce v1 相比,YARN 采用了一种分层的集群框架,它解决了旧 MapReduce 一系列的缺陷,具有以下几种优势。
- YARN 通过将资源管理和应用程序管理两部分分剥离开,分别由 ResouceManager 和 ApplicationMaster 负责,其中,ResouceManager 专管集群资源管理和调度,而 ApplicationMaster 则负责与具体应用程序相关的任务切分、任务调度和容错等,每个应用程序对应一个 ApplicationMaster。
- ARN 具有向后兼容性,用户在 MRv1 上运行的作业,无需任何修改即可运行在 YARN 之上。
- 支持多个框架, YARN 不再是一个单纯的计算框架,而是一个框架管理器,用户可以将各种各样的计算框架移植到 YARN 之上,由 YARN 进行统一管理和资源分配,提高集群资源的利用率。
- 框架升级更容易, 在 YARN 中,各种计算框架不再是作为一个服务部署到集群的各个节点上,而是被封装成一个用户程序库(lib)存放在客户端,当需要对计算框架进行升级时,只需升级用户程序库即可。
- 运维成本低、数据共享。
1.2 YARN 的架构
yarn 主要由 ResourceManager、NodeManager、ApplicationMaster、Container、Scheduler 等几个组件构成。
- ResourceManager(RM)
- RM 是一个全局的资源管理器,负责整个系统的资源管理和分配。它主要由两个组件构成:调度器(Scheduler)和应用程序管理器(ApplicationsManager,ASM),通俗讲是用于管理 NodeManager 节点的资源,包括cup、内存等。
- Scheduler(调度器)
- 调度器根据容量、队列等限制条件(如每个队列分配一定的资源,最多执行一定数量的作业等),将系统中的资源分配给各个正在运行的应用程序;在资源紧张的情况下,可以kill掉优先级低的,来运行优先级高的任务。
- 需要注意的是,该调度器是一个“纯调度器”,它不再从事任何与具体应用程序相关的工作,比如不负责监控或者跟踪应用的执行状态等,也不负责重新启动因应用执行失败或者硬件故障而产生的失败任务,这些均交由应用程序相关的 ApplicationMaster 完成。调度器仅根据各个应用程序的资源需求进行资源分配,而资源分配单位用一个抽象概念“资源容器”(Resource Container,简称Container)。
- 该调度器是一个可插拔的组件,用户可根据自己的需要设计新的调度器,YARN提供了多种直接可用的调度器,比如Fair Scheduler和Capacity Scheduler等。
- ApplicationsManager(应用程序管理器)
- 负责管理整个系统中所有应用程序,包括应用程序提交、与调度器协商资源以启动 ApplicationMaster、监控 ApplicationMaster 运行状态并在失败时重新启动它等。
- ApplicationMaster(AM)
- ApplicationMaster 管理在 YARN 内运行的每个应用程序实例。每个应用程序对应一个 ApplicationMaster。ApplicationMaster 负责协调来自 ResourceManager 的资源,并通过 NodeManager 监视容器的执行和资源使用(CPU、内存等的资源分配),通俗讲是管理发起的任务,随着任务创建而创建,任务的完成而结束。
- NodeManager(NM)
- NM 是每个节点上的资源和任务管理器,一方面,它会定时地向 RM 汇报本节点上的资源使用情况和各个 Container 的运行状态;另一方面,它接收并处理来自 AM 的 Container 启动/停止等各种请求。
- Container
- Container 是 YARN 中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等,当 AM 向 RM 申请资源时, RM 为 AM 返回的资源便是用Container 表示的。YARN 会为每个任务分配一个 Container,且该任务只能使用该 Container 中描述的资源。
1.3 YARN 的工作流程
- 用户向YARN中提交应用程序.
- ResourceManager 为该应用程序分配第一个 Container,并与对应的NodeManager通信,要求它在这个 Container 中启动应用程序的 ApplicationMaster。
- ApplicationMaster 首先向 ResourceManager 注册,目的是让用户可以直接通过 ResourceManager 查看应用程序的运行状态,然后它将为各个任务申请资源,并监控它的运行状态,直到运行结束。即重复步骤 4-7。
- ApplicationMaster 向 ResourceManager 的 scheduler 申请和领取资源。
- ApplicationMaster 申请到资源后,便与对应的 NodeManager 通信,要求它启动任务。
- NodeManager启动任务。
- 各个任务向 ApplicationMaster 汇报自己的状态和进度,以便让 ApplicationMaster 随时掌握各个任务的运行状态,从而可以在任务失败时重新启动任务。
- 应用程序运行完成后,ApplicationMaster 向 ResourceManager 注销并关闭自己。
二、YARN 的主要配置
2.1 yarn-site.xml
yarn.scheduler.minimum-allocation-vcores
1
单个任务可申请的最小虚拟CPU个数
yarn.scheduler.maximum-allocation-vcores
3
单个任务可申请的最大虚拟CPU个数,此参数对应yarn.nodemanager.resource.cpu-vcores,建议最大为一个物理CPU的数量
yarn.nodemanager.resource.memory-mb
1024
该节点上可分配的物理内存总量
yarn.nodemanager.resource.cpu-vcores
3
该节点上YARN可使用的虚拟CPU个数,一个物理CPU对应3个虚拟CPU
yarn.scheduler.maximum-allocation-mb
43008
单个任务可申请的最多物理内存量
yarn.resourcemanager.ha.enabled
true
是否开启yarn ha
yarn.resourcemanager.ha.automatic-failover.embedded
true
ha状态切换为自动切换
yarn.resourcemanager.ha.rm-ids
rm1,rm2
RMs的逻辑id列表
yarn.resourcemanager.zk-address
nn1.hadoop:2181,nn2.hadoop:2181,s1:2181
ha状态的存储地址
yarn.resourcemanager.address.rm1
nn1.hadoop:8032
ResourceManager 对客户端暴露的地址。客户端通过该地址向RM提交应用程序,杀死应用程序等
yarn.resourcemanager.scheduler.address.rm1
nn1.hadoop:8030
ResourceManager 对ApplicationMaster暴露的访问地址。ApplicationMaster通过该地址向RM申请资源、释放资源等。
yarn.resourcemanager.webapp.https.address.rm1
nn1.hadoop:8089
yarn.resourcemanager.webapp.address.rm1
nn1.hadoop:8088
ResourceManager对外web ui地址。用户可通过该地址在浏览器中查看集群各类信息。
yarn.resourcemanager.resource-tracker.address.rm1
nn1.hadoop:8031
ResourceManager 对NodeManager暴露的地址.。NodeManager通过该地址向RM汇报心跳,领取任务等。
yarn.resourcemanager.admin.address.rm1
nn1.hadoop:8033
ResourceManager 对管理员暴露的访问地址。管理员通过该地址向RM发送管理命令等
yarn.resourcemanager.address.rm2
nn2.hadoop:8032
ResourceManager 对客户端暴露的地址。客户端通过该地址向RM提交应用程序,杀死应用程序等
yarn.resourcemanager.scheduler.address.rm2
nn2.hadoop:8030
ResourceManager 对ApplicationMaster暴露的访问地址。ApplicationMaster通过该地址向RM申请资源、释放资>源等。
yarn.resourcemanager.webapp.https.address.rm2
nn2.hadoop:8089
yarn.resourcemanager.webapp.address.rm2
nn2.hadoop:8088
ResourceManager对外web ui地址。用户可通过该地址在浏览器中查看集群各类信息。
yarn.resourcemanager.resource-tracker.address.rm2
nn2.hadoop:8031
ResourceManager 对NodeManager暴露的地址.。NodeManager通过该地址向RM汇报心跳,领取任务等。
yarn.resourcemanager.admin.address.rm2
nn2.hadoop:8033
ResourceManager 对管理员暴露的访问地址。管理员通过该地址向RM发送管理命令等
yarn.resourcemanager.scheduler.class
org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler
调度器实现类
yarn.scheduler.fair.allocation.file
fair-scheduler.xml
自定义XML配置文件所在位置,该文件主要用于描述各个队列的属性,比如资源量、权重等
yarn.scheduler.fair.user-as-default-queue
true
当应用程序未指定队列名时,是否指定用户名作为应用程序所在的队列名。如果设置为false或者未设置,所有未知队列的应用程序将被提交到default队列中,默认值为true
yarn.scheduler.fair.preemption
true
是否支持抢占
yarn.scheduler.fair.sizebasedweight
false
在一个队列内部分配资源时,默认情况下,采用公平轮询的方法将资源分配各各个应用程序,而该参数则提供了外一种资源分配方式:按照应用程序资源需求数目分配资源,即需求资源数量越多,分配的资源越多。默认情况下,该参数值为false
yarn.scheduler.increment-allocation-mb
256
内存规整化单位,默认是1024,这意味着,如果一个Container请求资源是700mB,则将被调度器规整化为 (700mB / 256mb) * 256mb=768mb
yarn.scheduler.assignmultiple
true
是否启动批量分配功能。当一个节点出现大量资源时,可以一次分配完成,也可以多次分配完成。默认情况下,参数值为false
yarn.scheduler.fair.max.assign
10
如果开启批量分配功能,可指定一次分配的container数目。默认情况下,该参数值为-1,表示不限制
yarn.scheduler.fair.allow-undeclared-pools
false
如果提交的队列名不存在,Scheduler会自动创建一个该队列,默认开启
yarn.nodemanager.local-dirs
/data/yarn/local
中间结果存放位置,存放执行Container所需的数据如可执行程序或jar包,配置文件等和运行过程中产生的临时数据
yarn.nodemanager.log-dirs
/data/yarn/logs
Container运行日志存放地址(可配置多个目录)
yarn.log-aggregation-enable
true
是否启用日志聚集功能
yarn.nodemanager.remote-app-log-dir
/tmp/app-logs
当应用程序运行结束后,日志被转移到的HDFS目录(启用日志聚集功能时有效)
yarn.log-aggregation.retain-seconds
1209600
nodemanager上所有Container的运行日志在HDFS中的保存时间,保留半个月
yarn.nodemanager.address
0.0.0.0:9103
yarn.nodemanager.health-checker.script.path
/usr/local/hadoop/conf/health-check.sh
健康状况检测脚本,脚本输出以“ERROR”开头的字符串,则认为节点处于不健康状态态
yarn.nodemanager.aux-services
mapreduce_shuffle
NodeManager上运行的附属服务。需配置成mapreduce_shuffle,才可运行MapReduce程序
yarn.resourcemanager.cluster-id
pseudo-yarn-rm-cluster
集群的Id
yarn.resourcemanager.recovery.enabled
true
默认值为false,也就是说resourcemanager挂了相应的正在运行的任务在rm恢复后不能重新启动
yarn.resourcemanager.store.class
org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore
配置RM状态信息存储方式3有两种,一种是FileSystemRMStateStore,另一种是MemoryRMStateStore,还有一种目前较为主流的是zkstore
yarn.resourcemanager.zk.state-store.address
nn1.hadoop:2181,nn2.hadoop:2181,s1:2181
当使用ZK存储时,指定在ZK上的存储地址。
yarn.app.mapreduce.am.scheduler.connection.wait.interval-ms
5000
yarn.nodemanager.webapp.address
0.0.0.0:8042
yarn.nodemanager.localizer.address
0.0.0.0:8040
yarn.nodemanager.aux-services.mapreduce.shuffle.class
org.apache.hadoop.mapred.ShuffleHandler
mapreduce.shuffle.port
23080
yarn.app.mapreduce.am.staging-dir
/user
yarn.web-proxy.address
nn1.hadoop:8041
yarn.nodemanager.vmem-check-enabled
false
虚拟内存检测,默认是True
yarn.nodemanager.pmem-check-enabled
false
物理内存检测,默认是True
2.2 yarn-env.sh
#RESOURCEMANAGER内存
export YARN_RESOURCEMANAGER_HEAPSIZE=512
#NODEMANAGER内存
export YARN_NODEMANAGER_HEAPSIZE=256
三、YARM 的调度器
3.1 yarn 的三种调度策略
1. FIFO策略
- 有两个任务,第一个是任务需要大量资源;第二个需要少量资源,但是紧急重要任务,此时第二个需要等待第一个执行完,才能执行第二个。
- 弊端:由于顺序执行任务,如果第一个是大量资源,后续任务需要等待。没有做到资源共享。
2. 容量调度策略
- 将集群资源,给队列分配部分资源,每个队列互不干涉
- 弊端:某个队列突然来个大的任务,那这个大的任务不会占用其他队列资源,执行时间长,效率低。
- 配置弹性队列:允许队列超过自己配置的容量,但仅在其他队列没有占用资源的情况下。
- 容量调度,加上弹性队列后,可以实现资源共享。
3. 公平调度策略
- 队列间可以互相共享资源,如果权重高的任务来了,权重低的任务会分给权重高的任务部分资源,必要时,可kill掉权重低的任务。
- Steady Fair Share(稳定的公平份额):
- 是 Yarn 根据每个队列的 minShare、maxShare 和 weight 的配置计算得到的理论上应该分配给这个队列的最大资源,它与这个队列当前是否有app正在运行无关,只和我们在fair-scheduler.xml中的配置有关。
- Instantaneous Fair Share(瞬时的公平份额)
- 指的是实时动态分配的资源,它的值是随着集群资源的变动而实时变动的。
- 如果集群中有队列从 active 变为 inactive,那么剩余这些队列瓜分到的 instaneous fair shared 都会随之变大,反之,如果有一个队列从 inactive 变为active,则剩余每个队列的 instaneous fair share 会随之变小,即 instaneous fair share 会变小。
配置公平调度策略:
启用公平调度策略,配置属性yarn.resourcemanager.scheduler.class
yarn.resourcemanager.scheduler.class
org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler
公平调度器
队列配置,需要配置属性yarn.scheduler.fair.allocation.file
yarn.scheduler.fair.allocation.file
fair-scheduler.xml
自定义XML配置文件所在位置,该文件主要用于描述各个队列的属性,比如资源量、权重等
并在fair-scheduler.xml 文件中配置队列、用户、以及匹配规则等。
抢占:
- 公平调度器支持抢占功能。
- 所谓抢占,就是允许调度器终止那些占用资源超过了其公平份额的队列的容器,这些容器资源释放后可以分配给资源数量低于应得份额的队列。
- 注意,抢占会降低整个集群的效率,因为被终止的containers 需要重新执行。
启用抢占,配置yarn-site.xml 的 yarn.scheduler.fair.preemption 属性
yarn.scheduler.fair.preemption
true
是否支持抢占
两个相关抢占超时设置
在fair-scheduler.xml 文件中配置,为所有队列设置默认的超时时间
60
60
参考链接:https://juejin.im/entry/587c31cd128fe1006bff6d1b