CFS(Completely Fair Scheduler)

今天在研究Docker进程使用资源上限限制的时候看到了Cgroup,在Linux中其给用户暴露出来的操作接口是文件系统,我输入mount -t cgroup的时候显示如下图

cgroup文件系统目录

可以看到有很多cpu、pid、内存、设备等等的子目录(子系统),拿/sys/fs/cgroup/cpu举例,进入该目录,发现该文件夹下有以下文件:

cgroup.clone_children
cpu.cfs_period_us
cpu.rt_period_us
cpu.shares
notify_on_release
cgroup.procs
cpu.cfs_quota_us
cpu.rt_runtime_us
cpu.stat
tasks

其实当你在该目录下再创建一个文件夹的时候,文件夹内部也是会默认出现这些配置文件的。
那么其中的cfs是什么呢,没错就是CFS,完全公平调度算法。
CFS思路很简单,就是当进程得到调度以后,根据各个进程的权重分配运行时间,进程每次调度分配的运行时间的计算公式为:运行时间 = 调度周期 * 进程权重 / 所有进程权重之和 (公式1) 。举个例子,比如只有两个进程A, B,权重分别为1和2,调度周期设为30ms,那么分配给A的CPU时间为:30ms * (1/(1+2)) = 10ms;而B的CPU时间为:30ms * (2/(1+2)) = 20ms。那么在这30ms中A将运行10ms,B将运行20ms。 但是,vruntime并不是真实的运行时间, 运行时间和vruntime是怎么换算的呢?

vruntime = 实际运行时间 * 1024 / 进程权重 。 (公式2)
公式2中的1024,实际上它等于nice为0的进程的权重,代码中是NICE_0_LOAD。也就是说,所有进程都以nice为0的进程的权重1024作为基准,计算自己的vruntime增加速度。还以上面AB两个进程为例,B的权重是A的2倍,那么B的vruntime增加速度只有A的一半。现在我们把公式2中的实际运行时间用公式1来替换,最终我们可以得到

vruntime = 调度周期 * 1024 / 所有进程总权重

(以上对于CFS内容摘自https://blog.csdn.net/yetaibing1990/article/details/82716593 )
简而言之就是谁的vruntime小就说明之前对于cpu占用时间短,所以相应的下一个选择这个进程运行的概率就高,而权重越大的vruntime增加的越慢,可以获得更多的cpu执行时间,这样做到“完全公平”。
那讲到这里,或许有读者会问,nice是什么?其实上面引用的文章里有提到,但是对于其描述却出错了,

nice值并不表示优先级。

nice在这里可以通过与权重一一对应,nice值越大,权重越低。
nice的值的范围为[-20,19],正值表示低优先级,负值表示高优先级,0表示不调整该进程的优先级。
nice值和优先级(PRI)的关系如下公式:
PRI(new)=PRI(old)+nice,所以,进程nice值虽然会影响到优先级的变化,但是却不是进程的优先级。下图就是进程显示的nice值。在Linux系统中可以使用top命令进行查看。

top

那么我们如何使用cgroup呢,其实主要是操作三个文件。首先是cpu.cfs_period_us,调度周期。里面默认值应该是100000.代表的是100000us,也就是100ms;其次是cpu.cfs_quota_us,表示在调度周期内被分配到多少cpu时间。里面默认值是-1,也就是无限制,在里面设置一个值就可以改成限制的时间,基础单位也是us。例如我在cpu.cfs_quota_us中写入20000,那么就是说我每100ms,其中只分配给这个进程20ms的时间执行,也就是对于cpu进程的资源访问进行了限制。
而当我们将进程的PID写入tasks文件内的时候,设置就可以生效了。

Cgroups作为Linux容器技术的最基础技术之一,Docker启用容器的时候也能设置资源限制——输入docker run -it --cpu-period=100000 --cpu-quota=20000 ubuntu /bin/bash可以设置好容器的cpu资源限制,相关限制文件可以在/sys/fs/cgroup/cpu/docker/xxxxxxx/cpu.cfs_period_us/sys/fs/cgroup/cpu/docker/xxxxxxx/cpu.cfs_quota_us等文件中找到。(xxxxxxx是你的容器ID)。

你可能感兴趣的:(CFS(Completely Fair Scheduler))