资源调度器是 YARN 中最核心的组件之一,它是 ResourceManager 中的一个插拔式服务组件,负责整个集群资源的管理和分配。
Yarn 默认提供了三种可用资源调度器,分别是FIFO (First In First Out )、 Yahoo! 的 Capacity Scheduler 和 Facebook 的 Fair Scheduler。
本节会重点介绍资源调度器的基本框架,在之后文章中详细介绍 Capacity Scheduler 和 Fair Scheduler。
资源调度器是最核心的组件之一,并且在 Yarn 中是可插拔的,Yarn 中定义了一套接口规范,以方便用户实现自己的调度器,同时 Yarn 中自带了FIFO,CapacitySheduler, FairScheduler三种常用资源调度器。
Yarn 采用了双层资源调度模型。
Yarn 的资源分配过程是异步的,资源调度器将资源分配给一个应用程序后,它不会立刻 push 给对应的 AM,而是暂时放到一个缓冲区中,等待 AM 通过周期性的心跳主动来取(pull-based通信模型)
NM 启动时会向 RM 注册,注册信息中包含该节点可分配的 CPU 和内存总量,这两个值均可通过配置选项设置,具体如下:
yarn.nodemanager.resource.memory-mb
:可分配的物理内存总量,默认是8Gyarn.nodemanager.vmem-pmem-ratio
:任务使用单位物理内存量对应最多可使用的虚拟内存,默认值是2.1,表示使用1M的物理内存,最多可以使用2.1MB的虚拟内存总量yarn.nodemanager.resource.cpu-vcores
:可分配的虚拟CPU个数,默认是8。为了更细粒度地划分CPU资源和考虑到CPU性能差异,YARN允许管理员根据实际需要和CPU性能将每个物理CPU划分成若干个虚拟CPU,而管理员可为每个节点单独配置可用的虚拟CPU个数,且用户提交应用程序时,也可指定每个任务需要的虚拟CPU数Yarn 支持的调度语义:
Yarn 不支持的调度语义(随着 Yarn 的不断迭代,可能会在未来实现):
当单个节点的闲置资源无法满足应用的一个 container 时,有两种策略:
YARN 采用了第二种增量资源分配机制(当应用程序申请的资源暂时无法保证时,为应用程序预留一个节点上的资源直到累计释放的空闲资源满足应用程序需求),这种机制会造成浪费,但不会出现饿死现象
Yarn 的队列是层级关系,每个队列可以包含子队列,用户只能将任务提交到叶子队列。管理员可以配置每个叶子队列对应的操作系统用户和用户组,也可以配置每个队列的管理员。管理员可以杀死队列中的任何应用程序,改变任何应用的优先级等。
队列的命名用 .
来连接,比如 root.A1
、root.A1.B1
。
Yarn 的资源调度器是可以配置的,默认实现有三种 FIFO
、CapacityScheduler
、FairScheduler
。
FIFO 是 Hadoop设计之初提供的一个最简单的调度机制:先来先服务。
所有任务被统一提交到一个队里中,Hadoop按照提交顺序依次运行这些作业。只有等先来的应用程序资源满足后,再开始为下一个应用程序进行调度运行和分配资源。
优点:
缺点:
Capacity Scheduler 容量调度是 Yahoo! 开发的多用户调度器,以队列为单位划分资源。
每个队列可设定一定比例的资源最低保证和使用上限。每个用户也可设置一定的资源使用上限,以防资源滥用。并支持资源共享,将队列剩余资源共享给其他队列使用。配置文件名称为 capacity-scheduler.xml。
主要特点:
Fair Scheduler 是 Facebook 开发的多用户调度器。设计目标是为所有的应用分配「公平」的资源(对公平的定义可以通过参数来设置)。公平不仅可以在队列中的应用体现,也可以在多个队列之间工作。
在 Fair 调度器中,我们不需要预先占用一定的系统资源,Fair 调度器会为所有运行的 job 动态的调整系统资源。如下图所示,当第一个大 job 提交时,只有这一个 job 在运行,此时它获得了所有集群资源;当第二个小任务提交后,Fair 调度器会分配一半资源给这个小任务,让这两个任务公平的共享集群资源。
与Capacity Scheduler不同之处:
看下面三个图中调度器的继承关系。这三个 Scheduler 都继承自 AbstractYarnScheduler
。这个抽象类又 extends AbstractService implements ResourceScheduler。继承 AbstractService
说明是一个服务,实现 ResourceScheduler
是 scheduler 的主要功能。
三者还有一些区别,FairScheduler
没实现 Configurable
接口,少了 setConf()
方法;FifoScheduler
不支持资源抢占,FairScheduler
支持资源抢占却没实现 PreemptableResourceScheduler
接口。
在 YarnScheduler
中,定义了一个资源调度器应该实现的方法。在 AbstractYarnScheduler
中实现了大部分方法,若自己实现调度器可继承该类,将发开重点放在资源分配实现上。
public interface YarnScheduler extends EventHandler<SchedulerEvent> {
// 获得一个队列的基本信息
public QueueInfo getQueueInfo(String queueName, boolean includeChildQueues,
boolean recursive) throws IOException;
// 获取集群资源
public Resource getClusterResource();
/**
* AM 和资源调度器之间最主要的一个方法
* AM 通过该方法更新资源请求、待释放资源列表、黑名单列表增减
*/
@Public
@Stable
Allocation allocate(ApplicationAttemptId appAttemptId,
List<ResourceRequest> ask, List<ContainerId> release,
List<String> blacklistAdditions, List<String> blacklistRemovals,
List<UpdateContainerRequest> increaseRequests,
List<UpdateContainerRequest> decreaseRequests);
// 获取节点资源使用情况报告
public SchedulerNodeReport getNodeReport(NodeId nodeId);
ResourceScheduler
本质是个事件处理器,主要处理10种事件(CapacityScheduler 还会多处理几种抢占相关的事件),可以到对应 Scheduler 的 handle()
方法中查看这些事件处理逻辑:
NODE_ADDED
: 集群中增加一个节点NODE_REMOVED
: 集群中移除一个节点NODE_RESOURCE_UPDATE
: 集群中有一个节点的资源增加了NODE_LABELS_UPDATE
: 更新node labelsNODE_UPDATE
: 该事件是 NM 通过心跳和 RM 通信时发送的,会汇报该 node 的资源使用情况,同时触发一次分配操作。APP_ADDED
: 增加一个ApplicationAPP_REMOVED
: 移除一个applicationAPP_ATTEMPT_ADDED
: 增加一个application AttemptAPP_ATTEMPT_REMOVED
: 移除一个application attemptCONTAINER_EXPIRED
: 回收一个超时的container目前有两种:DefaultResourceCalculator
和 DominantResourceCalculator
。
DefaultResourceCalculator
: 仅考虑内存资源DominantResourceCalculator
: 同时考虑内存和 CPU 资源(后续更新中支持更多类型资源,FPGA、GPU 等)。该算法扩展了最大最小公平算法(max-min fairness)。
DominantResourceCalculator#compare
探究实现逻辑(这里注意!很多文章和书中写的是「YARN 资源调度器默认采用了 DominantResourceCalculator」,实际并不是这样的!)
FifoScheduler
默认使用 DefaultResourceCalculator
且不可更改。CapacityScheduler
是在 capacity-scheduler.xml
中配置 yarn.scheduler.capacity.resource-calculator
参数决定的。FairScheduler
才默认使用 DominantResourceCalculator
。这里仅简要介绍资源抢占模型,在后面的文章中会深入源码分析抢占的流程。
本文介绍了 Yarn 资源调度器的基本框架,包括基本架构,以及简要介绍三种 YARN 实现的调度器,并对资源调度维度,资源抢占模型等进行了介绍。
后续文章中将会围绕三种 YARN 调度器,深入源码进行探究。看其在源码中是如何一步步实现对应功能的。
参考文章:
《Hadoop 技术内幕:深入解析 YARN 架构设计与实现原理》第六章
深入解析yarn架构设计与技术实现-资源调度器
Yarn源码分析5-资源调度