容器技术的核心
所谓容器,其实是由Linux Namespace、Linux Cgroups和rootfs三种技术构建出来的进程的隔离环境
对于Docker项目来说,其实最核心就是为待创建的用户进程:
- 启动Linux Namespace配置
- 设置指定的Cgroups参数
- 切换进程的根目录(Change Root)
1. Namespace机制
PID Namespace实现创建(clone)出来的进程,认为自己的当前容器里PID为1的进程,看不到宿主机的真正的进程,也看不到其他PID的具体情况
Mount Namespcace实现被隔离的进程只能看到当前Namespace的挂载点信息
Network Namespace实现让被隔离进程看到当前Namespace的网络设备和配置
Linux提供了UTS、IPC、User的Namespace
总结 :Namespce技术修改了应用进程看待整个计算机的“视图”,只能看到某些指定的内容
Namespace隔离机制的不足:
多个容器使用的是同一个宿主机的操作系统内核,windowns上运行Linux容器,或者在低版本的Linux宿主机上运行高版本的Linux容器,是不行的
2. Cgroups
虽然进程被隔离起来了,但是它所能使用的资源,比如CPU、内存,是可以被宿主机上的其他进程占用的,也可以将所有的资源耗尽,而Cgroups解决了这个问题
Cgroups全称是Linux Control Group,主要作用就是限制一个进程能够使用的资源上限,包括CPU、内存、磁盘、网络带宽等。
Cgroups的缺点:
/proc文件不知道用户通过Cgroups给容器做了什么资源限制,所以当我们在容器里执行top命令的时候,看到的其实是宿主机的CPU和内存数据
3.rootfs
容器的根目录通常会挂载一个完整的文件系统,在容器启动后就可以用ls /查看根目录所有的内容,
这个挂载在容器根目录,为容器提供隔离后执行环境的文件系统,就是rootfs(容器镜像),
容器镜像中,通过会包括如下目录和文件
bin dev etc home lib lib64 mnt opt proc root run sbin sys tmp usr var
rootfs只是一个操作系统的所有文件和目录,并不包含内核,通过Mount Namespace和rootfs,可以构建出一个完善的文件系统隔离环境,其中使用了chroot和pivot_root两个系统调用切换进程根目录的能力。
在mount namespace被创建后,父进程会把自己的文件结构复制给子进程,而子进程中新的namespace所有的mount操作都只影响自身的文件系统,不对外界产生任何影响。
每次修改rootfs,新的rootfs和旧的就不同了,Docker公司为了解决rootfs的增量修改的功能,创新的提出了层的概念
容器中的层的概念
在rootfs的基础上,Docker公司创新的使用了多个增量rootfs联合挂载一个完整rootfs的方案
例如,C目录是由A和B挂载得到,拥有A和B的所有文件
层分为三种,如下图
1.只读层
位于rootfs最下面,挂载方式是只读,这些层以增量的方式分别包含了操作系统的一部分
2.可读写层
挂载方式为rw,比如,当删除只读的一个xx文件时,这个删除操作实际只是在可读写层创建了一个名叫.wh.xx的文件,当两个层联合挂载后,xx文件会被.wh.xx文件遮挡,相当于“消失了”
在容器中修改文件时,Docker会从上到下在各镜像层中查找文件。找到后会把此文件复制到容器层(可读写层),这就是Copy on Write
3. init层
以一个-init结尾的层,在只读和读写层之间,用来存放/etc/hosts、/etc/resolve.conf等信息,这此文件本来是属于操作系统层的一部分,但是用户往往需要在运行时指定hostname,所以就需要在可读写层修改,这些修改往往保对当前容器有效,我们并不想在docker commit的时候,把这些和读写层一起提交,于是就有了这一层
参考链接:https://coolshell.cn/articles/17010.html