Docker Cgroups——Docker 资源限制背后的技术原理

Docker Cgroups——Docker 资源限制背后的技术原理

虽然在容器内部进程只能看到“掩饰”过的视图,但是在宿主机上,它就是一个普通的进程,与其他所有进程之间是平等竞争的关系。这就意味着虽然表面上被隔离了,但它实际上在与其他进程共享资源。

Cgroups(控制组) 是 Linux 内核的另一个特性,全称叫 Linux Control Group,用来限制一个进程组能够使用的资源上限,包括 CPU、内存、磁盘、网络带宽等资源。Cgroups 还可以对进程进行优先级设置、审计。

在 Linux 中,Cgroups 以文件和目录的方式组织在 /sys/fs/cgroup 路径下。

$ ll /sys/fs/cgroup/
total 0
drwxr-xr-x 15 root root 380 May  3 14:50 ./
drwxr-xr-x  9 root root   0 May  3 20:29 ../
dr-xr-xr-x  5 root root   0 May  3 14:50 blkio/
lrwxrwxrwx  1 root root  11 May  3 14:50 cpu -> cpu,cpuacct/
dr-xr-xr-x  5 root root   0 May  3 14:50 cpu,cpuacct/
lrwxrwxrwx  1 root root  11 May  3 14:50 cpuacct -> cpu,cpuacct/
dr-xr-xr-x  3 root root   0 May  3 14:50 cpuset/
dr-xr-xr-x  5 root root   0 May  3 14:50 devices/
dr-xr-xr-x  3 root root   0 May  3 14:50 freezer/
dr-xr-xr-x  3 root root   0 May  3 14:50 hugetlb/
dr-xr-xr-x  5 root root   0 May  3 14:50 memory/
lrwxrwxrwx  1 root root  16 May  3 14:50 net_cls -> net_cls,net_prio/
dr-xr-xr-x  3 root root   0 May  3 14:50 net_cls,net_prio/
lrwxrwxrwx  1 root root  16 May  3 14:50 net_prio -> net_cls,net_prio/
dr-xr-xr-x  3 root root   0 May  3 14:50 perf_event/
dr-xr-xr-x  5 root root   0 May  3 14:50 pids/
dr-xr-xr-x  2 root root   0 May  3 14:50 rdma/
dr-xr-xr-x  6 root root   0 May  3 14:50 systemd/
dr-xr-xr-x  5 root root   0 May  3 14:50 unified/

这个路径下的子目录,都是这台机器可以被 Cgroups 限制的资源种类,也叫子系统。

$ ll /sys/fs/cgroup/cpu,cpuacct/
total 0
dr-xr-xr-x  5 root root   0 May  3 20:30 ./
drwxr-xr-x 15 root root 380 May  3 14:50 ../
-rw-r--r--  1 root root   0 May  3 20:38 cgroup.clone_children
-rw-r--r--  1 root root   0 May  3 20:38 cgroup.procs
-r--r--r--  1 root root   0 May  3 20:38 cgroup.sane_behavior
-rw-r--r--  1 root root   0 May  3 15:04 cpu.cfs_period_us
-rw-r--r--  1 root root   0 May  3 15:04 cpu.cfs_quota_us
-rw-r--r--  1 root root   0 May  3 15:04 cpu.shares
-r--r--r--  1 root root   0 May  3 20:38 cpu.stat
-r--r--r--  1 root root   0 May  3 20:38 cpuacct.stat
-rw-r--r--  1 root root   0 May  3 20:38 cpuacct.usage
-r--r--r--  1 root root   0 May  3 20:38 cpuacct.usage_all
-r--r--r--  1 root root   0 May  3 20:38 cpuacct.usage_percpu
-r--r--r--  1 root root   0 May  3 20:38 cpuacct.usage_percpu_sys
-r--r--r--  1 root root   0 May  3 20:38 cpuacct.usage_percpu_user
-r--r--r--  1 root root   0 May  3 20:38 cpuacct.usage_sys
-r--r--r--  1 root root   0 May  3 20:38 cpuacct.usage_user
drwxr-xr-x  2 root root   0 May  3 15:04 docker/
-rw-r--r--  1 root root   0 May  3 20:38 notify_on_release
-rw-r--r--  1 root root   0 May  3 20:38 release_agent
drwxr-xr-x 88 root root   0 May  3 15:03 system.slice/
-rw-r--r--  1 root root   0 May  3 20:38 tasks
drwxr-xr-x  4 root root   0 May  3 20:38 user.slice/

大多数都是文件,里面保存着一些配置参数。

$ cat /sys/fs/cgroup/cpu,cpuacct/cpu.cfs_period_us
100000
$ cat /sys/fs/cgroup/cpu,cpuacct/cpu.cfs_quota_us
-1

我们首先来构建一个跑 Python 死循环脚本的容器镜像:

Dockerfile 如下:

FROM python:3.6.8-alpine3.9
RUN echo -e "while True:\n    pass" > app.py
CMD ["python3", "app.py"]

这个脚本为了吃满 CPU。

接下来直接构建一个 Docker 镜像:

$ docker build -t cgroups_test:latest .
Sending build context to Docker daemon  2.048kB
Step 1/3 : FROM python:3.6.8-alpine3.9
3.6.8-alpine3.9: Pulling from library/python
bdf0201b3a05: Pull complete
59c926705abf: Pull complete
dd4853571cc7: Pull complete
3a45eb710779: Pull complete
f4700a9d59e5: Pull complete
Digest: sha256:54b604a4f1937b370d2daf2344594dbd76305048b705ca786cd467125f36759d
Status: Downloaded newer image for python:3.6.8-alpine3.9
 ---> ed8897654bd1
Step 2/3 : RUN echo -e "while True:\n    pass" > app.py
 ---> Running in fbd12ca97a57
Removing intermediate container fbd12ca97a57
 ---> d1e64aa6624f
Step 3/3 : CMD ["python3", "app.py"]
 ---> Running in b5834c5ef957
Removing intermediate container b5834c5ef957
 ---> a76fa98dd418
Successfully built a76fa98dd418
Successfully tagged cgroups_test:latest
docker images
REPOSITORY          TAG                 IMAGE ID            CREATED             SIZE
cgroups_test        latest              a76fa98dd418        3 minutes ago       79.1MB
python              3.6.8-alpine3.9     ed8897654bd1        8 days ago          79.1MB

直接启动容器:

$ docker run -d cgroups_test
$ top
top - 22:20:15 up  5:35,  2 users,  load average: 0.72, 0.24, 0.09
Tasks: 172 total,   2 running, 132 sleeping,   0 stopped,   0 zombie
%Cpu(s): 50.2 us,  0.3 sy,  0.0 ni, 49.5 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem :  4034008 total,  2943452 free,   439008 used,   651548 buff/cache
KiB Swap:  2097148 total,  2095100 free,     2048 used.  3355620 avail Mem

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
29223 root      20   0    7916   7184   2876 R  99.7  0.2   1:12.09 python3

python3(容器进程) 对 CPU 的占用率已经接近百分百了。。。

docker ps看一下容器的 ID:

$ docker ps
CONTAINER ID        IMAGE               COMMAND             CREATED             STATUS              PORTS               NAMES
9226c3249105        cgroups_test        "python3 app.py"    8 minutes ago       Up 3 minutes                            reverent_euclid
$ docker inspect --format="{{.Id}}" reverent_euclid
9226c3249105f42d04b433baa134af9bb10891de2df72fe2edfc6f2bb0a41fb2

得到完整的 container ID:9226c3249105f42d04b433baa134af9bb10891de2df72fe2edfc6f2bb0a41fb2

然后查看 /sys/fs/cgroup/cpu,cpuacct/docker/ 路径

ll /sys/fs/cgroup/cpu,cpuacct/docker/
total 0
drwxr-xr-x 3 root root 0 May  3 22:24 ./
dr-xr-xr-x 5 root root 0 May  3 20:30 ../
drwxr-xr-x 2 root root 0 May  3 22:24 9226c3249105f42d04b433baa134af9bb10891de2df72fe2edfc6f2bb0a41fb2/
-rw-r--r-- 1 root root 0 May  3 22:25 cgroup.clone_children
-rw-r--r-- 1 root root 0 May  3 22:25 cgroup.procs
-rw-r--r-- 1 root root 0 May  3 22:25 cpu.cfs_period_us
-rw-r--r-- 1 root root 0 May  3 22:25 cpu.cfs_quota_us
-rw-r--r-- 1 root root 0 May  3 22:25 cpu.shares
-r--r--r-- 1 root root 0 May  3 22:25 cpu.stat
-r--r--r-- 1 root root 0 May  3 22:25 cpuacct.stat
-rw-r--r-- 1 root root 0 May  3 22:25 cpuacct.usage
-r--r--r-- 1 root root 0 May  3 22:25 cpuacct.usage_all
-r--r--r-- 1 root root 0 May  3 22:25 cpuacct.usage_percpu
-r--r--r-- 1 root root 0 May  3 22:25 cpuacct.usage_percpu_sys
-r--r--r-- 1 root root 0 May  3 22:25 cpuacct.usage_percpu_user
-r--r--r-- 1 root root 0 May  3 22:25 cpuacct.usage_sys
-r--r--r-- 1 root root 0 May  3 22:25 cpuacct.usage_user
-rw-r--r-- 1 root root 0 May  3 22:25 notify_on_release
-rw-r--r-- 1 root root 0 May  3 22:25 tasks

看到 docker 路径下多了一个 9226c3249105f42d04b433baa134af9bb10891de2df72fe2edfc6f2bb0a41fb2 子目录,就是正在运行的容器的 ID。

$ ll /sys/fs/cgroup/cpu,cpuacct/docker/9226c3249105f42d04b433baa134af9bb10891de2df72fe2edfc6f2bb0a41fb2/
total 0
drwxr-xr-x 2 root root 0 May  3 22:27 ./
drwxr-xr-x 3 root root 0 May  3 22:24 ../
-rw-r--r-- 1 root root 0 May  3 22:27 cgroup.clone_children
-rw-r--r-- 1 root root 0 May  3 22:24 cgroup.procs
-rw-r--r-- 1 root root 0 May  3 22:27 cpu.cfs_period_us
-rw-r--r-- 1 root root 0 May  3 22:27 cpu.cfs_quota_us
-rw-r--r-- 1 root root 0 May  3 22:27 cpu.shares
-r--r--r-- 1 root root 0 May  3 22:27 cpu.stat
-r--r--r-- 1 root root 0 May  3 22:27 cpuacct.stat
-rw-r--r-- 1 root root 0 May  3 22:27 cpuacct.usage
-r--r--r-- 1 root root 0 May  3 22:27 cpuacct.usage_all
-r--r--r-- 1 root root 0 May  3 22:27 cpuacct.usage_percpu
-r--r--r-- 1 root root 0 May  3 22:27 cpuacct.usage_percpu_sys
-r--r--r-- 1 root root 0 May  3 22:27 cpuacct.usage_percpu_user
-r--r--r-- 1 root root 0 May  3 22:27 cpuacct.usage_sys
-r--r--r-- 1 root root 0 May  3 22:27 cpuacct.usage_user
-rw-r--r-- 1 root root 0 May  3 22:27 notify_on_release
-rw-r--r-- 1 root root 0 May  3 22:27 tasks

这里都是9226c3249105f42d04b433baa134af9bb10891de2df72fe2edfc6f2bb0a41fb2 控制组 CPU 资源的配置。

$ cat /sys/fs/cgroup/cpu,cpuacct/docker/9226c3249105f42d04b433baa134af9bb10891de2df72fe2edfc6f2bb0a41fb2/cpu.cfs_period_us
100000
$ cat /sys/fs/cgroup/cpu,cpuacct/docker/9226c3249105f42d04b433baa134af9bb10891de2df72fe2edfc6f2bb0a41fb2/cpu.cfs_quota_us
-1

可以看到 9226c3249105f42d04b433baa134af9bb10891de2df72fe2edfc6f2bb0a41fb2 控制组 CPU 周期是默认的 100ms,而 CPU 配额没有任何限制,所以 python3 进程直接就吃满了整个 CPU。

接下来我们这样修改文件内容:

$ echo 20000 > /sys/fs/cgroup/cpu,cpuacct/docker/9226c3249105f42d04b433baa134af9bb10891de2df72fe2edfc6f2bb0a41fb2/cpu.cfs_quota_us

代表在每 100ms 的时间里,被 9226c3249105f42d04b433baa134af9bb10891de2df72fe2edfc6f2bb0a41fb2 控制组限制的进程只能使用 20ms 的 CPU 时间,也就是这个进程最多只能使用 20% 的 CPU 带宽。

我们来看一下 tasks 文件:

cat /sys/fs/cgroup/cpu,cpuacct/docker/9226c3249105f42d04b433baa134af9bb10891de2df72fe2edfc6f2bb0a41fb2/tasks
29223

如果对数字敏感的话,马上就可以发现这个数字就是容器进程 python3 的 PID!

现在我们 top 看一下进程对 CPU 资源的占用:

$ top
top - 22:58:05 up  6:13,  2 users,  load average: 0.41, 0.84, 0.90
Tasks: 173 total,   2 running, 132 sleeping,   0 stopped,   0 zombie
%Cpu(s): 10.6 us,  0.3 sy,  0.0 ni, 89.1 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem :  4034008 total,  2968868 free,   412624 used,   652516 buff/cache
KiB Swap:  2097148 total,  2095100 free,     2048 used.  3381924 avail Mem

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
  29223 root      20   0    6180   5528   2816 R  20.3  0.1   9:33.65 python3

python3 进程的 CPU 使用率已经降到了 20% 左右!

下面停掉这个容器,重新创建一个限制 CPU 使用的容器:

$ docker container stop 9226c3249105
9226c3249105
$ docker run --cpu-period=100000 --cpu-quota=20000 -d cgroups_test
5218de26ad09db66a92b5c6f8880e99e48012d3cb2148eeff0ce481775b27f02
$ docker ps
CONTAINER ID        IMAGE               COMMAND             CREATED             STATUS              PORTS               NAMES
5218de26ad09        cgroups_test        "python3 app.py"    1 second ago        Up 1 second                             flamboyant_taussig
$ top
top - 23:04:04 up  6:19,  2 users,  load average: 0.11, 0.37, 0.67
Tasks: 177 total,   2 running, 135 sleeping,   0 stopped,   0 zombie
%Cpu(s): 10.5 us,  0.3 sy,  0.0 ni, 89.2 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem :  4034008 total,  2959716 free,   420932 used,   653360 buff/cache
KiB Swap:  2097148 total,  2095100 free,     2048 used.  3373504 avail Mem

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
 3162 root      20   0    7916   7168   2868 R  19.6  0.2   0:13.86 python3

PID 为3162的 python3 进程在启动后的 CPU 占用率就在20%左右。

接下来确认容器对应控制组中的参数配置:

$ ll /sys/fs/cgroup/cpu,cpuacct/docker/5218de26ad09db66a92b5c6f8880e99e48012d3cb2148eeff0ce481775b27f02/
total 0
drwxr-xr-x 2 root root 0 May  3 23:06 ./
drwxr-xr-x 3 root root 0 May  3 23:02 ../
-rw-r--r-- 1 root root 0 May  3 23:06 cgroup.clone_children
-rw-r--r-- 1 root root 0 May  3 23:02 cgroup.procs
-rw-r--r-- 1 root root 0 May  3 23:02 cpu.cfs_period_us
-rw-r--r-- 1 root root 0 May  3 23:02 cpu.cfs_quota_us
-rw-r--r-- 1 root root 0 May  3 23:06 cpu.shares
-r--r--r-- 1 root root 0 May  3 23:06 cpu.stat
-r--r--r-- 1 root root 0 May  3 23:06 cpuacct.stat
-rw-r--r-- 1 root root 0 May  3 23:06 cpuacct.usage
-r--r--r-- 1 root root 0 May  3 23:06 cpuacct.usage_all
-r--r--r-- 1 root root 0 May  3 23:06 cpuacct.usage_percpu
-r--r--r-- 1 root root 0 May  3 23:06 cpuacct.usage_percpu_sys
-r--r--r-- 1 root root 0 May  3 23:06 cpuacct.usage_percpu_user
-r--r--r-- 1 root root 0 May  3 23:06 cpuacct.usage_sys
-r--r--r-- 1 root root 0 May  3 23:06 cpuacct.usage_user
-rw-r--r-- 1 root root 0 May  3 23:06 notify_on_release
-rw-r--r-- 1 root root 0 May  3 23:06 tasks
$ cat /sys/fs/cgroup/cpu,cpuacct/docker/5218de26ad09db66a92b5c6f8880e99e48012d3cb2148eeff0ce481775b27f02/cpu.cfs_period_us
100000
$ cat /sys/fs/cgroup/cpu,cpuacct/docker/5218de26ad09db66a92b5c6f8880e99e48012d3cb2148eeff0ce481775b27f02/cpu.cfs_quota_us
20000
$ cat /sys/fs/cgroup/cpu,cpuacct/docker/5218de26ad09db66a92b5c6f8880e99e48012d3cb2148eeff0ce481775b27f02/tasks
3162

Docker 在启动容器的时候就把 cpu-period 和 cpu-quota 参数写到了对应的控制组中。

总结一下,Linux Cgroups 就是一个子系统目录加上一组资源配置文件的组合。Docker 在启动容器时在每个子系统下为容器创建一个控制组(目录名为 container ID),修改相应的配置参数,把容器进程的 PID 填到 tasks 文件中就完事了。

容器的本质只是一个加了限定参数的进程。

但是 Linux Cgroups 对资源的限制最大的问题还是限制不彻底,Linux 下的 /proc 路径下存储着当前内核运行状态的一系列特殊文件,用户可以通过访问这些文件来查看系统信息,它们也是 top 查看 CPU 占用的数据来源。但在容器里执行 top,显示的信息居然是宿主机的数据。。。

这就要避免容器挂载宿主机的 /proc/stats 目录。lxcfs是一种不错的纠正方案。容器中进程读取相应文件内容时,LXCFS 的 FUSE 文件系统实现会从容器对应的控制组中读取正确的限制,从而使得应用获得正确的资源限制设定。

你可能感兴趣的:(docker,linux,运维)