作为一种容器虚拟化技术,docker深度应用了操作系统的多项底层支持技术
操作系统来看 主要包括命名空间(namespace)、控制组(control group)、联合文件系统(union file system)、和linux网络虚拟化支持
docker目前采用了标准的C/S架构,客户端和服务器端既可以运行在一个机器上,也可以运行在不同的机器上,通过socket来进行通信
docker daemon一般在宿主机后台运行,作为服务端接受来自客户的请求,并处理这些请求(创建、运行、分发)
docker客户端为用户提供了一系列可执行的命令,用户用这些命令与docker daemon交互
命名空间是linux内核的一个强大的特性,为容器虚拟化的实现带来极大的便利,这一机制保证了容器之间彼此互补影响。
Namespace是将内核的全局资源做封装,使得每个Namespace都有一份独立的资源,因此不同的进程在各自的Namespace内对同一种资源的使用不会互相干扰。实际上,Linux内核实现namespace的主要目的就是为了实现轻量级虚拟化(容器)服务。在同一个namespace下的进程可以感知彼此的变化,而对外界的进程一无所知。这样就可以让容器中的进程产生错觉,仿佛自己置身于一个独立的系统环境中,以此达到独立和隔离的目的。
这样的解释可能不清楚,举个例子,执行sethostname这个系统调用时,可以改变系统的主机名,这个主机名就是一个内核的全局资源。内核通过实现UTS Namespace,可以将不同的进程分隔在不同的UTS Namespace中,在某个Namespace修改主机名时,另一个Namespace的主机名还是保持不变。
目前Linux内核总共实现了6种Namespace:
IPC:隔离System V IPC和POSIX消息队列。
Network:隔离网络资源。
Mount:隔离文件系统挂载点。每个容器能看到不同的文件系统层次结构。
PID:隔离进程ID。
UTS:隔离主机名和域名。
User:隔离用户ID和组ID。
2: 通过setns()加入一个已经存在的namespace
在进程都结束的情况下,也可以通过挂载的形式把namespace保留下来,保留namespace的目的自然是为以后有进程加入做准备。通过setns()系统调用,你的进程从原先的namespace加入我们准备好的新namespace,使用方法如下。
int setns(int fd, int nstype);
参数fd表示我们要加入的namespace的文件描述符。上文已经提到,它是一个指向/proc/[pid]/ns目录的文件描述符,可以通过直接打开该目录下的链接或者打开一个挂载了该目录下链接的文件得到。
参数nstype让调用者可以去检查fd指向的namespace类型是否符合我们实际的要求。如果填0表示不检查。
3: 通过unshare()在原先进程上进行namespace隔离
后要提的系统调用是unshare(),它跟clone()很像,不同的是,unshare()运行在原先的进程上,不需要启动一个新进程,使用方法如下。
int unshare(int flags);
调用unshare()的主要作用就是不启动一个新进程就可以起到隔离的效果,相当于跳出原先的namespace进行操作。这样,你就可以在原进程进行一些需要隔离的操作。Linux中自带的unshare命令,就是通过unshare()系统调用实现的。
linux通过命名空间管理进程号,对于同一进程(即同一个task_struct),在不同的命名空间中,看到的进程号不相同,每个进程命名空间有一套自己的进程号管理方法,进程管理命名空间是一个父子关系的结构,子空间中进程对于父空间是可见的。新的fork出的进程在父命名空间和子命名空间将分别有一个进程号来对应
PID Namespace用于隔离进程PID号,这样一来,不同的Namespace里的进程PID号就可以是一样的了。
这个Namespace会对网络相关的系统资源进行隔离,每个Network Namespace都有自己的网络设备、IP地址、路由表、/proc/net目录、端口号等。网络隔离的必要性是很明显的,举一个例子,在没有隔离的情况下,如果两个不同的容器都想运行同一个Web应用,而这个应用又需要使用80端口,那就会有冲突了
UTS Namespace用于对主机名和域名进行隔离,也就是uname系统调用使用的结构体struct utsname里的nodename和domainname这两个字段,UTS这个名字也是由此而来的。
那么,为什么要使用UTS Namespace做隔离?这是因为主机名可以用来代替IP地址,因此,也就可以使用主机名在网络上访问某台机器了,如果不做隔离,这个机制在容器里就会出问题。
IPC是Inter-Process Communication的简写,也就是进程间通信。Linux提供了很多种进程间通信的机制,IPC Namespace针对的是SystemV IPC和Posix消息队列。这些IPC机制都会用到标识符,例如用标识符来区别不同的消息队列,然后两个进程通过标识符找到对应的消息队列进行通信等。
IPC Namespace能做到的事情是,使相同的标识符在两个Namespace中代表不同的消息队列,这样也就使得两个Namespace中的进程不能通过IPC进程通信了。
Mount namespace通过隔离文件系统挂载点对隔离文件系统提供支持,它是历史上第一个Linux namespace,所以它的标识位比较特殊,就是CLONE_NEWNS。隔离后,不同mount namespace中的文件结构发生变化也互不影响。你可以通过/proc/[pid]/mounts查看到所有挂载在当前namespace中的文件系统,还可以通过/proc/[pid]/mountstats看到mount namespace中文件设备的统计信息,包括挂载文件的名字、文件系统类型、挂载位置等等。
进程在创建mount namespace时,会把当前的文件结构复制给新的namespace。新namespace中的所有mount操作都只影响自身的文件系统,而对外界不会产生任何影响。这样做非常严格地实现了隔离,但是某些情况可能并不适用。比如父节点namespace中的进程挂载了一张CD-ROM,这时子节点namespace拷贝的目录结构就无法自动挂载上这张CD-ROM,因为这种操作会影响到父节点的文件系统。
User Namespace用来隔离用户和组ID,也就是说一个进程在Namespace里的用户和组ID与它在host里的ID可以不一样,这样说可能读者还不理解有什么实际的用处。User Namespace最有用的地方在于,host的普通用户进程在容器里可以是0号用户,也就是root用户。这样,进程在容器内可以做各种特权操作,但是它的特权被限定在容器内,离开了这个容器它就只有普通用户的权限了。
Cgroup是control group的简写,属于Linux内核提供的一个特性,用于限制和隔离一组进程对系统资源的使用,也就是做资源QoS,这些资源主要包括CPU、内存、block I/O和网络带宽。Cgroup从2.6.24开始进入内核主线,目前各大发行版都默认打开了Cgroup特性。
Cgroups提供了以下四大功能:
![360截图17610612118130146.png](https://img-blog.csdnimg.cn/img_convert/5174ef5b99e96863507978e46f6b0392.png#clientId=u598a17da-f008-4&from=ui&id=u4ee1d01b&margin=[object Object]&name=360截图17610612118130146.png&originHeight=86&originWidth=963&originalType=binary&ratio=1&size=8701&status=done&style=none&taskId=u26810a46-cdba-4445-bf85-d976d4bb81a)
cgroup中实现的子系统及其作用如下:
每个子系统的目录下有更详细的设置项,例如:
![image.png](https://img-blog.csdnimg.cn/img_convert/d675fde789cd75b3173e54d761b9efc7.png#clientId=u598a17da-f008-4&from=paste&height=66&id=u993c4e8d&margin=[object Object]&name=image.png&originHeight=132&originWidth=1279&originalType=binary&ratio=1&size=23413&status=done&style=none&taskId=ua2dba099-f473-4e5b-8f71-55db76e31ee&width=639.5)
CPU资源的控制也有两种策略,一种是完全公平调度 (CFS:Completely Fair Scheduler)策略,提供了限额和按比例分配两种方式进行资源控制;另一种是实时调度(Real-Time Scheduler)策略,针对实时进程按周期分配固定的运行时间。配置时间都以微秒(µs)为单位,文件名中用us表示。
cpuset CPU绑定
![image.png](https://img-blog.csdnimg.cn/img_convert/ccb692c285bf06738ffc01fe52becd55.png#clientId=u598a17da-f008-4&from=paste&height=76&id=ucfd014ff&margin=[object Object]&name=image.png&originHeight=151&originWidth=1385&originalType=binary&ratio=1&size=30021&status=done&style=none&taskId=ua4dc30d9-eeb6-41f3-924f-78cf7338372&width=692.5)
除了限制 CPU 的使用量,cgroup 还能把任务绑定到特定的 CPU,让它们只运行在这些 CPU 上,这就是 cpuset 子资源的功能。除了 CPU 之外,还能绑定内存节点(memory node)。
在把任务加入到 cpuset 的 task 文件之前,用户必须设置 cpuset.cpus 和 cpuset.mems 参数。
memory
![image.png](https://img-blog.csdnimg.cn/img_convert/36a00408ee97c26f98868bc895f59b87.png#clientId=u598a17da-f008-4&from=paste&height=132&id=u0235ae89&margin=[object Object]&name=image.png&originHeight=263&originWidth=1327&originalType=binary&ratio=1&size=50725&status=done&style=none&taskId=u3caa9f72-299d-4678-829b-5e96cdbc4bc&width=663.5)
这里专门讲一下监控和统计相关的参数,比如cadvisor采集的那些参数。
使用docker run 运行一个容器后执行
docker stats
![image.png](https://img-blog.csdnimg.cn/img_convert/491df1202a2c09594be7579e8ca7f9a7.png#clientId=u598a17da-f008-4&from=paste&height=46&id=ud370b26e&margin=[object Object]&name=image.png&originHeight=92&originWidth=1674&originalType=binary&ratio=1&size=18135&status=done&style=none&taskId=u52fc1b5f-8af9-4812-8462-2ef0909d9e7&width=837)
[root@db2 ~]# find /sys/fs/cgroup/ -name "f42852fba6d6*"
/sys/fs/cgroup/devices/docker/f42852fba6d68a5b315ff8b0bab6def24d1b04852585bde46062ae89040a89da
/sys/fs/cgroup/pids/docker/f42852fba6d68a5b315ff8b0bab6def24d1b04852585bde46062ae89040a89da
/sys/fs/cgroup/freezer/docker/f42852fba6d68a5b315ff8b0bab6def24d1b04852585bde46062ae89040a89da
/sys/fs/cgroup/hugetlb/docker/f42852fba6d68a5b315ff8b0bab6def24d1b04852585bde46062ae89040a89da
/sys/fs/cgroup/memory/docker/f42852fba6d68a5b315ff8b0bab6def24d1b04852585bde46062ae89040a89da
/sys/fs/cgroup/cpu,cpuacct/docker/f42852fba6d68a5b315ff8b0bab6def24d1b04852585bde46062ae89040a89da
/sys/fs/cgroup/cpuset/docker/f42852fba6d68a5b315ff8b0bab6def24d1b04852585bde46062ae89040a89da
/sys/fs/cgroup/perf_event/docker/f42852fba6d68a5b315ff8b0bab6def24d1b04852585bde46062ae89040a89da
/sys/fs/cgroup/blkio/docker/f42852fba6d68a5b315ff8b0bab6def24d1b04852585bde46062ae89040a89da
/sys/fs/cgroup/net_cls,net_prio/docker/f42852fba6d68a5b315ff8b0bab6def24d1b04852585bde46062ae89040a89da
/sys/fs/cgroup/systemd/docker/f42852fba6d68a5b315ff8b0bab6def24d1b04852585bde46062ae89040a89da
在创建或者启动容器时,为每个容器指定容器的指定资源的限制,例如:-c |–cpu-shares [=0] 参数来调整容器使用CPU的权重,使用-m | --menory [=MEMORY],参数来调整容器使用内存的大小
create kubelet: misconfiguration: kubelet cgroup driver: “cgroupfs” is different from docker cgroup driver: “systemd”
联合文件系统,(UnionFS)是一种轻量级的高性能分层文件系统,它支持将文件系统中的修改信息作为一次提交,并层层叠加,同时可以将不同目录的挂载到同一虚拟文件系统下,应用看到的是挂载的最终结构。联合文件系统是实现docker镜像的技术基础,docker镜像可以通过分层来进行继承。
UnionFS是一种为Linux,FreeBSD和NetBSD操作系统设计的把其他文件系统联合到一个联合挂载点的文件系统服务。它使用branch把不同文件系统的文件和目录“透明地”覆盖,形成一个单一一致的文件系统。这些branches或者是read-only或者是read-write的,所以当对这个虚拟后的联合文件系统进行写操作的时候,系统是真正写到了一个新的文件中。看起来这个虚拟后的联合文件系统是可以对任何文件进行操作的,但是其实它并没有改变原来的文件,这是因为unionfs用到了一个重要的资管管理技术叫写时复制。
写时复制(copy-on-write,下文简称CoW),也叫隐式共享,是一种对可修改资源实现高效复制的资源管理技术。它的思想是,如果一个资源是重复的,但没有任何修改,这时候并不需要立即创建一个新的资源;这个资源可以被新旧实例共享。创建新资源发生在第一次写操作,也就是对资源进行修改的时候。通过这种资源共享的方式,可以显著地减少未修改资源复制带来的消耗,但是也会在进行资源修改的时候增减小部分的开销。
AUFS,英文全称是Advanced multi-layered unification filesystem, 曾经也叫 Acronym multi-layered unification filesystem,Another multi-layered unification filesystem。AUFS完全重写了早期的UnionFS 1.x,其主要目的是为了可靠性和性能,并且引入了一些新的功能,比如可写分支的负载均衡。AUFS的一些实现已经被纳入UnionFS 2.x版本。
docker 镜像自身就是有多个文件层组成,每一层有唯一的编号。
docker的本地网络实现其实就是利用linux的网络命令空间和虚拟网络设备(特别是veth pair)。熟悉这两部分的基础概念,有助于理解docker网络实现的过程
直观上看,要实现网络通信,机器至少需要一个网络接口(物理接口或者虚拟接口)与外界相通,并且可以收发数据包,如果不同子网之间要进行通信,需要额外的路由机制
docker中的网络接口默认都是虚拟的接口,虚拟接口的最大有事就是转发的效率极高,即发送接口的发送缓存中的数据包将被直接复制到接受接口的接受缓存中,而无需通过外部物理网络设备进行交换。对于本地系统和容器内系统来看,虚拟接口跟一个正常的以太网卡相比并无区别,只是它的速度较快
docker容器网络就很好的的利用了linux虚拟网络技术,在本地主机和容器内分别创建一个虚拟接口,并让他们彼此连通(这样的一对接口叫做veth pair)
完成这些操作后,容器就可以使用它所能看见的eth0虚拟网卡来连接其他容器和访问外部网络
用户也可以通过docker network命令来手动管理网络
在运行容器时,可以通过–net参数指定容器的网络配置,有5个可选值bridge、none、container、host和用户定义的网络
用户使用–net=none后,docker将不对容器网络进行配置
[root@db2 ~]# docker run -it --rm --net=none docker_test/wordpress bash
root@d7eb67fe8f99:/var/www/html#
[root@db2 ~]# docker inspect -f '{{.State.Pid}}' d7eb67fe8f99
12331
[root@db2 ~]# mkdir -p /var/run/netns
[root@db2 ~]# ln -s /proc/12331/ns/net/ /var/run/netns/12331
[root@db2 ~]# ifconfig
docker0: flags=4099<UP,BROADCAST,MULTICAST> mtu 1500
inet 172.17.0.1 netmask 255.255.0.0 broadcast 172.17.255.255
ether 02:42:34:ff:7a:e7 txqueuelen 0 (Ethernet)
RX packets 4731 bytes 6144820 (5.8 MiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 3649 bytes 2944694 (2.8 MiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
[root@db2 ~]# ip link add A type veth peer name B
[root@db2 ~]# brctl addif docker0 A
[root@db2 ~]# ip link set A up
[root@db2 ~]# docker inspect -f '{{.State.Pid}}' d7eb67fe8f99
12331
[root@db2 ~]# pid=12331
[root@db2 ~]# ip link set B netns ${pid}
[root@db2 ~]# ip netns exec ${pid} ip limk set dev B name eth0
Object "limk" is unknown, try "ip help".
[root@db2 ~]# ip netns exec ${pid} ip link set dev B name eth0
[root@db2 ~]# ip netns exec ${pid} ip link set eth0 up
[root@db2 ~]# ip netns exec ${pid} ip addr add 172.17.0.1/16 dev eth0
[root@db2 ~]# ip netns exec ${pid} ip route add default via 172.24.63.253
https://www.jianshu.com/p/47c4a06a84a4