读Google Borg

1. 名词解释

文章分章节讲的,但是在这里主要展示读论文得出的borg的架构,首先展示几个名词
Job:一个限定了IP地址,进程结构和软硬件的工作
Task:每个任务映射到一个机器的一些进程,包括资源限制和在Job中的Index
one or more jobs可以运行在一个alloc中

2. 各名词包含关系

读Google Borg_第1张图片

3. Borg架构

一个Borg cell包含若干台机器和一个中心控制器Borgmaster,并且每台机器上运行着一个代理进程Borglet

3.1 Borgmaster

每个Borgmaster包括两个进程:主Borgmaster进程和一个调度器
主Borgmaster处理客户端的RPC请求
调度器分配任务到有足够资源的机器,调度的单位是task。扫描进程通过一个循环调节任务的优先级来保证用户的公平性并避免饿死。调度算法包括两方面:可用性检查,寻找可以运行任务的机器;打分,挑选一个可用的机器运行任务。
打分策略包括两种,第一种是“最差适应”,指的是尽可能分散地在集群中分发任务并留出集群中前面的节点供给最高优先级的任务使用,这种方式的缺点是容易将大的task分散到太多机器上造成过多分片;第二种是“最优适应”,将用到的机器装的越满越好,用完后再用下一台,这种做法对那些在运行过程中资源使用量会急速上升的任务不太公平。目前Borg用的是两种策略的混合体。
Borg应用了抢占式策略,高优先级的任务会抢占低优先级的任务,但低优先级并不是移动到其他机器或者休眠,而是被调动到任务队列。
任务启动的延迟主要是由于安装包造成的,所以Borg采用优先将任务调度到有需要的包的地方。另外,它也会通过树和torrent的方式来分发包。

3.2 Borglet

在cell中的每台机器上有运行一个Borglet,用于启动和停止tasks,通过操作OS kernel设置来控制资源;向Borgmaster和其他监控系统报告机器状态。
当被选定的Borgmaster连续几次没有接收到Borglet的回复时,便认为Borglet所在节点已经坏掉,便会把该节点上的任务调度到其他机器。另外,当Borglet不能联系上Borgmaster时依旧会正常工作,这样可以在Borgmaster出故障的情况下继续保持工作。

4 扩展性

4.1 Score结果缓存

为每台机器评测可用性并打分的代价是昂贵的,所以Borg缓存每台机器的打分结果,只有在机器的配置或者任务有改变时才更新。

4.2 同等分类

将具有相同资源需求和约束的job分为一类,Borg仅仅是为一类约束中的一个task做可用性研究,减少花费

4.3 随机

为cell中所有机器判断可用性并打分花费很大,所以Borg随机地选择机器打分直到找到足够的机器。

5 资源利用率

尽可能多的利用机器的资源,从而减少要使用的机器可以减少花费。

6 kubernetes改动

6.1 pods

kubernetes中用pods代替Borg中的job,因为job不能将一个multi-job的服务放到一个实体中。kubernetes中将job:jobname连接到一系列pods中从而比单个的job提供了更多的灵活性,pods相当于Borg中的alloc。kubernetes中的pod中运行containers,代替了alloc中运行tasks。

6.2 IP address

Borg中机器中的task共用宿主机的IP地址并使用主机上分配的port,这样要提前确定要用的端口等,很复杂;kubernetes中为每个pod和service设定其IP地址,让开发者去选择port。

你可能感兴趣的:(Google,论文,borg)