Docker 是个划时代的开源项目,它彻底释放了计算虚拟化的威力,极大提高了应用的维护效率,降低了云计算应用开发的成本!
首先我们从大家都很熟悉的 Docker 开始,因为它是管理容器的最流行的工具。对很多人来说"Docker"这个名字本身就是"容器"的代名词。
Docker 启动了整个容器的革命,它创造了一个很好用的工具来处理容器也叫 Docker,这里最主要的要明白:
Docker 并不是这个唯一的容器竞争者
容器也不再与 Docker 这个名字紧密联系在一起
目前的容器工具中,Docker 只是其中之一,其他著名的容器工具还包括:Podman,LXC,containerd,Buildah等。因此,如果你认为容器只是关于 Docker 的,那是片面的不对的。
Docker Engine 由许多专用的工具协同工作,从而可以创建和运行容器,例如 API、执行驱动、运行时、shim 进程等。
Docker 引擎由如下主要的组件构成:Docker 客户端(Docker Client)、Docker 守护进程(Docker daemon)、containerd 以及 runc。它们共同负责容器的创建和运行。
Docker 引擎的架构示意图
Docker守护进程(Docker daemon):也叫 dockerd,是一个持久化的进程,用户可以管理容器。守护进程会监听Docker Engine API的请求;dockerd本身实属是对容器相关操作的api的最上层封装,直接面向操作用户。
在对 Docker daemon 的功能进行拆解后,所有的容器执行逻辑被重构到一个新的名为 containerd(发音为 container-dee)的工具中。它的主要任务是容器的生命周期管理——start | stop | pause | rm....
Docker 引擎技术栈中,containerd 位于 daemon 和 runc 所在的 OCI 层之间。Kubernetes 也可以通过 cri-containerd 使用 containerd。
如前所述,containerd 最初被设计为轻量级的小型工具,仅用于容器的生命周期管理。然而,随着时间的推移,它被赋予了更多的功能,比如镜像管理。其原因之一在于,这样便于在其他项目中使用它。比如,在 Kubernetes 中,containerd 就是一个很受欢迎的容器运行时。然而在 Kubernetes 这样的项目中,如果 containerd 能够完成一些诸如 push 和 pull 镜像这样的操作就更好了。因此,如今 containerd 还能够完成一些除容器生命周期管理之外的操作。不过,所有的额外功能都是模块化的、可选的,便于自行选择所需功能。所以,Kubernetes 这样的项目在使用 containerd 时,可以仅包含所需的功能。
containerd 是由 Docker 公司开发的,并捐献给了云原生计算基金会(Cloud Native Computing Foundation, CNCF)。2017 年 12 月发布了 1.0 版本,具体的发布信息见 GitHub 中的 containerd/ containerd 库的 releases。
OCI 开放容器计划,是一个由科技公司组成的团体,其目的是围绕容器镜像和运行时创建开放的行业标准。他们维护容器镜像格式的规范,以及容器应该如何运行。OCI 背后的想法是,你可以选择符合规范的不同运行时,这些运行时都有不同的底层实现。
例如,你可能有一个符合 OCI 的运行时用于你的 Linux 主机,另一个用于你的 Windows 主机。这就是拥有一个可以由许多不同项目实施的标准的好处。这种同样的 “一个标准,多种实现” 的方法其实还有很多都在使用,从蓝牙设备到 Java APIs。
当 Docker 公司正在进行 Docker daemon 进程的拆解和重构的时候,OCI 也正在着手定义两个容器相关的规范(或者说标准)。
镜像规范和容器运行时规范,两个规范均于 2017 年 7 月发布了 1.0 版。
Docker 公司参与了这些规范的制定工作,并贡献了许多的代码。
从 Docker 1.11 版本(2016 年初)开始,Docker 引擎尽可能实现了 OCI 的规范。例如,Docker daemon 不再包含任何容器运行时的代码——所有的容器运行代码在一个单独的 OCI 兼容层中实现。
默认情况下,Docker 使用 runc 来实现这一点。runc 是 OCI 容器运行时标准的参考实现。如前图中的 runc 容器运行时层。runc 项目的目标之一就是与 OCI 规范保持一致。
目前 OCI 规范均为 1.0 版本,我们不希望它们频繁地迭代,毕竟稳定胜于一切。
除此之外,Docker 引擎中的 containerd 组件确保了 Docker 镜像能够以正确的 OCI Bundle 的格式传递给 runc。
其实,在 OCI 规范以 1.0 版本正式发布之前,Docker 引擎就已经遵循该规范实现了部分功能。
如前所述,runc 是 OCI 容器运行时规范的参考实现。Docker 公司参与了规范的制定以及 runc 的开发。去粗取精,会发现 runc 实质上是一个轻量级的、针对 Libcontainer 进行了包装的命令行交互工具(Libcontainer 取代了早期 Docker 架构中的 LXC)。
runc 生来只有一个作用——创建容器,这一点它非常拿手,速度很快!不过它是一个 CLI 包装器,实质上就是一个独立的容器运行时工具。因此直接下载它或基于源码编译二进制文件,即可拥有一个全功能的 runc。但它只是一个基础工具,并不提供类似 Docker 引擎所拥有的丰富功能。
有时也将 runc 所在的那一层称为“OCI 层”,如上图所示。关于 runc 的发布信息见 GitHub 中 opencontainers/runc 库的 release。
runc 是轻量级的通用运行时容器,它遵守 OCI 规范,是实现 OCI 接口的最低级别的组件,它与内核交互创建并运行容器。runc 为容器提供了所有的低级功能,与现有的低级 Linux 功能交互,如命名空间和控制组,它使用这些功能来创建和运行容器进程。
runc 的几个替代品:
crun一个用 C 语言编写的容器运行时(相比之下,runc 是用Go编写的)来自 Katacontainers 项目的kata-runtime,它将 OCI 规范实现为单独的轻量级虚拟机(硬件虚拟化)。Google 的gVisor,它创建了拥有自己内核的容器。它在其运行时中实现了 OCI,称为 runsc。
runc 是一个在 Linux 上运行容器的工具,所以这意味着它可以在 Linux 上、裸机上或虚拟机内运行。在 Windows 上,它略有不同,与 runc 相当的是微软的主机计算服务(HCS),它包括一个叫runhcs的工具,它本身是 runc 的一个分叉,也实现了开放容器倡议的规范。
shim 是实现无 daemon 的容器(用于将运行中的容器与 daemon 解耦,以便进行 daemon 升级等操作)不可或缺的工具。前面提到,containerd 指挥 runc 来创建新容器。事实上,每次创建容器时它都会 fork 一个新的 runc 实例。不过,一旦容器创建完毕,对应的 runc 进程就会退出。因此,即使运行上百个容器,也无须保持上百个运行中的 runc 实例。
一旦容器进程的父进程 runc 退出,相关联的 containerd-shim
进程就会成为容器的父进程
。作为容器的父进程,shim 的部分职责如下。
CRI(容器运行时接口)是 Kubernetes 用来控制创建和管理容器的不同运行时的 API,它使 Kubernetes 更容易使用不同的容器运行时。它一个插件接口,这意味着任何符合该标准实现的容器运行时都可以被 Kubernetes 所使用。
Kubernetes 项目不必手动添加对每个运行时的支持,CRI API 描述了 Kubernetes 如何与每个运行时进行交互,由运行时决定如何实际管理容器,因此只要它遵守 CRI 的 API 即可。
CRI-O 是另一个实现了容器运行时接口(CRI)的高级别容器运行时,可以使用 OCI(开放容器倡议)兼容的运行时,它是 containerd 的一个替代品。
CRI-O 诞生于 RedHat、IBM、英特尔、SUSE、Hyper 等公司。它是专门从头开始创建的,作为 Kubernetes 的一个容器运行时,它提供了启动、停止和重启容器的能力,就像 containerd 一样。
常用的启动容器的方法就是使用 Docker 命令行工具。下面的docker container run
命令会基于 alpine:latest
镜像启动一个新容器。
docker container run --name ctr1 -it alpine:latest sh
Docker 命令行工具
执行如上命令时,Docker 客户端
会将其转换为合适的 API 格式,并发送到正确的 API 端点
。daemon
中实现的。这套功能丰富、基于版本的 REST API 已经成为 Docker 的标志,并且被行业接受成为事实上的容器 API。containerd
发出调用。daemon 已经不再包含任何创建容器的代码了!daemon 使用一种 CRUD 风格的 API,通过 gRPC 与 containerd 进行通信。runc
去做。containerd 将 Docker 镜像转换为 OCI bundle
,并让 runc 基于此创建一个新的容器。操作系统内核接口
进行通信,基于所有必要的工具(Namespace、CGroup等)来创建容器。容器进程作为 runc 的子进程启动,启动完毕后,runc 将会退出。
该模型的显著优势
将所有的用于启动、管理容器的逻辑和代码从 daemon 中移除,意味着容器运行时与 Docker daemon 是解耦的,有时称之为“无守护进程的容器(daemonless container)”,如此,对 Docker daemon 的维护和升级工作不会影响到运行中的容器。
在旧模型中,所有容器运行时的逻辑都在 daemon 中实现,启动和停止 daemon 会导致宿主机上所有运行中的容器被杀掉。这在生产环境中是一个大问题——想一想新版 Docker 的发布频次吧!每次 daemon 的升级都会杀掉宿主机上所有的容器,这太糟了!幸运的是,这已经不再是个问题。
在 Linux 系统中,前面谈到的组件由单独的二进制来实现,具体包括
通过在 Docker 宿主机的 Linux 系统中执行 ps 命令可以看到以上组件的进程。当然,有些进程只有在运行容器的时候才可见。
[root@node-137 ~]# ps -ef|grep docker |grep -v grep
root 1077 1 0 10:11 ? 00:00:52 /usr/bin/dockerd-current --add-runtime docker-runc=/usr/libexec/docker/docker-runc-current --default-runtime=docker-runc --exec-opt native.cgroupdriver=systemd --userland-proxy-path=/usr/libexec/docker/docker-proxy-current --init-path=/usr/libexec/docker/docker-init-current --seccomp-profile=/etc/docker/seccomp.json --signature-verification=False --storage-driver overlay2 --mtu=1450
root 1487 1077 0 10:11 ? 00:00:31 /usr/bin/docker-containerd-current -l unix:///var/run/docker/libcontainerd/docker-containerd.sock --metrics-interval=0 --start-timeout 2m --state-dir /var/run/docker/libcontainerd/containerd --shim docker-containerd-shim --runtime docker-runc --runtime-args --systemd-cgroup=true
root 4411 1487 0 17:24 ? 00:00:00 /usr/bin/docker-containerd-shim-current 065bddf2e3dcc254b2a6c727ed6418233389af90950ac35bb17e9df371ebb07a /var/run/docker/libcontainerd/065bddf2e3dcc254b2a6c727ed6418233389af90950ac35bb17e9df371ebb07a /usr/libexec/docker/docker-runc-current
当所有的执行逻辑和运行时代码都从 daemon 中剥离出来之后,问题出现了—— daemon 中还剩什么?
显然,随着越来越多的功能从 daemon 中拆解出来并被模块化,这一问题的答案也会发生变化。不过,daemon 的主要功能包括镜像管理、镜像构建、REST API、身份验证、安全、核心网络以及编排。