今天我们来讨论分布式资源调度。
我们知道,计算机的出现很大程度上是为了分担人类的工作的。所以,整个计算机体系架构的演化的过程,都离不开对任务与资源这两个因素的考虑。如何利用最少的资源,运行最多的任务,且耗时最短,这是一直以来伴随我们以及科学家的难题。对于单机系统来说,从最早的单道程序设计技术、到多道程序设计技术、到现在的多核并行架构,解决方案正在逐步进化,也就是我们最直观的感受:计算机处理任务变快了。
我们可以类比一下操作系统的概念。相比于分布式资源调度,操作系统其实就是一种微观上的资源调度。我们把任务与任务相关的一系列上下文(包括程序代码与数据),统统抽象为进程。进程就是任务。在单核CPU架构下,由于只有一个CPU核,所以我们只能同时对一个任务进行处理。
但是,我们的任务数量不只会有1个,而是会远远超出CPU的数量,即“僧多粥少”的局面,所以,操作系统的进程调度算法出现了,比如时间片轮转调度算法,即一段时间内,CPU快速在多个任务之间快速切换、交替执行,故对每个任务内部来说,好像自己在独占CPU一样,这就是所谓的并发。除此之外,还有高优先级、高响应比、多级反馈队列调度等等任务调度算法,都在力图在单核CPU基础上解决这个问题。但是,我们一定不会满足,为了追求更高程度的并发,即在同一时刻允许多个任务同时运行。所以,多核CPU就这样诞生了,即实现了所谓的并行。那么同理,分布式系统也同样需要这种资源与任务的调度机制,来协调资源与任务之间的关系。
分布式系统存在的意义之一,就是解决单体架构执行任务时的性能瓶颈,所以,我们找来了一堆机器,来分担原来一台机器上的计算任务。但是,资源是多了,但是我们要如何利用呢?这里面就涉及到资源如何公平公正的分给每一个计算任务,让整个集群合理的利用硬件资源,短时、高效、公平的完成一系列的计算任务,而不至于某个任务被饿死或者撑死。所以,需要一个宏观上的“操作系统”,来合理的将无穷多个计算任务,分配到m个集群节点的计算资源上去执行。这,就是为什么需要分布式资源调度机制。
对于操作系统进程调度来说,资源只有一份,那就是当前操作系统所在的计算机硬件资源;而任务有很多,资源:任务 = 1:N的关系,操作系统在进行任务调度之前,只需要收集它所在的计算机的硬件资源即可。而对于一个分布式系统中的集群,计算资源分布在多个节点上,任务还是有很多,他们之间是M:N的关系。所以,分布式系统的工作稍微复杂些,它需要收集所有节点上的资源信息而非仅仅一个节点,然后对所有收集来的资源信息做一个统筹规划。
如果让我们自己设计一个调度系统,我们自然会想到之前讲过的“分布式经典架构”中的集中式架构,由一个节点全权负责资源分配与任务调度。这,其实就是单体调度。单体调度模块称为“Scheduler”或“单体调度器”。所有的资源请求和任务调度都通过这个中心节点来进行。集中式调度器的常见模型,如下图所示。:
我们看到,master节点会收集每个节点的节点状态并交给master中的cluster state模块。这个节点状态就是指集群的计算资源的分布情况,而这个cluster state模块一般是一种内存数据库。然后,橙色方框Scheduling logic会到cluster state中查询集群资源的分布情况,然后根据分布情况执行自己的调度逻辑,进而将任务分配到各个节点上去执行。
我们可以看到,单体调度器拥有全局资源视图和全局任务,可以很容易地实现对任务的约束并实施全局性的调度策略。目前很多集群管理系统采用了单体调度设计,比如Google Borg、Kubernetes等。Kubernetes的架构经过我们之前的学习,相信你已经很熟悉了,下面我们来介绍Borg的调度架构,由于Kubernetes吸收了许多Borg的先进理念,说不定你会在Kubernetes的架构中看到许多Borg的影子。下面我们来以Borg为例,介绍一下它的单体调度实现。
Borg是谷歌内部的大规模集群管理系统。有了之前的理论基础,我们直接上Borg的架构图:
我们看到,Borg主要由BorgMaster与Borglet构成。BorgMaster是整个集群的大脑,Borglet代表集群中的节点在这里,我们主要关注BorgMaster中的调度器Scheduler组件,它负责任务的调度,当用户提交一个作业给 BorgMaster 后,BorgMaster 会把该作业保存起来,并将这个作业的所有任务加入等待队列中。调度器异步地扫描等待队列,将任务分配到满足作业约束、且有足够资源的计算节点上。那么,Borg调度器是如何快速找到满足任务资源需求的那个机器呢?这个算法主要分为两个阶段:
首先看可行性检查阶段,这个很好理解。假如当前任务需要8G内存的资源,而某个机器的内存总数低于8G,那么这台机器则会被无情的过滤掉。
接下来就会进入到评分阶段,既然现在的所有机器已经符合要求了,是不是我们随便找一台机器把任务分了就完事了呢?其实不是。我们可以想想,大概有如下两种方案:
在单体调度架构中,中央服务器的性能会限制调度的效率,这个很好理解,但为什么会限制支持的任务类型呢?
简单地说,这是因为不同的服务具有不同的特征,对调度框架和计算的要求都不一样。比如说,你的业务最开始时只有批处理任务,后来发展到同时还包括流式计算任务。这两种计算任务的资源与调度需求各不相同,所以我们的调度器需要适配每一种任务,为每一个类型的任务设计不同的资源分配与调度策略,所以单体调度框架会随着任务类型增加而变得越来越复杂,最终出现扩展瓶颈。
为了解决以上单体调度的问题,一种方法就是另起一层,分担中央服务器的任务,将任务调度与适配放到我们刚才说的具体的二层调度器中,一层调度器不再去适配每一种任务的资源与调度需求。也就是说,一层调度器只负责资源管理和分配,二层调度器负责任务与资源的匹配。这就是我们所的两层调度架构。
总结一下,在两层调度中,中央调度器从整体上收集节点资源信息,并进行资源的管理与分配,将资源分配到第二层调度器;再由第二层调度器负责将资源与具体的任务配对。所以,第二层调度可以有多个调度器,以支持不同的任务类型:
看到这里大家可能还是不明白一层调度器这个资源分配,到底是分配了什么。我们用一个例子来详细讲解一下:
Mesos也是一个大型分布式集群资源管理框架。既然是资源管理,所以Mesos只负责集群底层资源的管理和分配,并不涉及任务调度与管理等功能。所以,Mesos如果要实现类似Borg那样的资源与任务管理,还需要上层框架的配合。
Mesos本身实现的调度器为第一层调度,负责资源管理,然后将第二层任务调度,交给框架完成。所以,Mesos是一个典型的两层调度架构:
这里我们所说的二层调度的框架,是运行在Mesos上,是负责任务管理与调度的组件,比如 Hadoop、Spark等,每个框架有他们自己的任务调度器,用于调度并完成不同的任务,比如批处理任务、实时分析任务等。框架主要由调度器(Scheduler)和执行器(Executor)组成,调度器可以从 Master 节点获取集群节点的信息 ,执行器在Slave节点上执行任务。
在Mesos中,分配资源的过程叫做Resource Offer机制。Mesos Master主动将节点空闲资源,以类似发放Offer的方式发给每个框架,如果框架需要则使用,不需要则还回。也就是说,通过 Resource Offer 机制,第一层调度器将资源主动分配给第二层调度器,然后第二层调度进行具体的任务匹配,从而实现了任务调度与资源管理的分离。
总结一下,Mesos Master通过资源分配算法决定给各个Framework提供多少资源,而Framework则决定接受哪些资源,以及哪些任务使用这些资源运行。这样一来,一个两层调度架构就实现了。
但是两层调度的一个问题是,由于第二层调度只能获得部分资源视图,并没有单体调度掌控全局的能力。因此无法实现全局最优调度。为了解决这个问题,共享状态调度机制出现了。
为了解决单体调度的扩展瓶颈问题,以及两层调度只能获得部分资源视图的问题,我们想,那么让两层调度器也能够看到所有节点的状态不就可以了,即我们要一个地方来存储所有节点的状态就OK了。这,就是共享状态调度。
共享状态调度结合了单体调度掌控全局的特点,以及两层调度职责分离的优势。通过将单体调度器分解为多个调度器,且每个调度器都有全局的资源状态信息,从而实现最优的任务调度,提供了更好的可扩展性。其架构如下:
Omega是Google的第二代集群管理系统,Omega 在设计时参考了 Borg 的设计,吸收了Borg 的优点,并改进了其不足之处。
Omega中以Cell为单位来管理集群,它是一个集群中的节点集合。比如集群中有10个节点,那么我们可以把其中的2个节点称为一个Cell。在Omega中,由于需要共享每一个Cell的资源状态,那么需要一个共享存储空间,来共享每个Cell的状态。其架构图如下:
我们看到,为了提高性能、并且能更方便的查到共享的集群状态数据,每个Cell都会从中心的State Storage同步一份数据到每个Cell内部。这样一来,Omega 就有效地解决了两层调度中 Framework 只拥有局部资源,无法实现全局最优的问题。
那么这几种资源调度方案字哪种场景下使用更好呢?
【分布式系统遨游】分布式计算
欢迎对本系列文章感兴趣的读者订阅我们的公众号,关注博主下次不迷路~