chroot
chroot就是可以改变某进程的根目录,使这个程序不能访问目录之外的其他目录。
Docker是利用Linux的Namespace、Cgroups和联合文件系统三大机制来保证实现的,它的原理是使用Namespace做主机名、网络、pid等资源的隔离,
使用Cgroups对进程或者进程组做资源的限制,联合文件系统用于镜像构建和容器运行环境。
Docker的命名空间
Docker主要用到一下五种命名空间:
- pid namespace:用于隔离进程id。
- net namespace:隔离网络接口。
- mnt namespace:文件系统挂在点隔离。
- ipc namespace:信号量,消息队列和共享内存的隔离。
- ust namespace:主机名和域名的隔离。
Cgroups是一种unix内核功能,可以限制和隔离进程的资源使用情况。在容器的实现中,Cgroups通常用来限制容器的CPU和内存等资源的使用。
Docker有两个至关重要的组件:runC和containerd。
- runC是Docker官方按照OCI容器运行时标准得到的一个实现。runC是一个用来运行容器的轻量级工具,是真正用来运行容器的。
- containerd是从Docker中剥离出来的,containerd通过containerd-shim启动并管理runC,可以说containerd真正管理了容器的生命周期。
可以通过sudo ps aux|grep dockerd,查找到dockerd的pid,然后使用sudo pstree -l -a -A pid查看 docker组件之间的调用关系。
docker启动时,containerd就随之启动,dockerd与containerd一直存在。containerd会创建container-shim充当垫片进程,然后启动容器的真正进程。
镜像相关操作
镜像操作:
- 拉取镜像,docker pull从本地拉取镜像获取从远程拉取镜像到本地;
- 重命名镜像,docker tag重命名镜像
- 查看镜像,docker images /docker image ls 查看现有镜像。
- 删除镜像,docker rmi 镜像编号;
- 构建镜像,docker build基于Dockerfile构建镜像,docker commit基于运行的容器提交为镜像。
Dockerfile操作
Dockerfile常用指令:
Dockerfile指令 | 指令介绍 |
---|---|
FROM | Dockerfile除了注释行,第一行必须是FROM,FROM后面跟镜像名称,作为基础镜像 |
RUN | 跟具体命令,类似于Linux命令行的执行命令 |
ADD | 拷贝本地文件或者远程文件到镜像内 |
COPY | 拷贝本地文件到镜像内 |
USER | 指定容器启动的用户 |
ENDPOINT | 容器的启动命令 |
CMD | CMD为ENDPOINT提供默认参数,也可以单独使用CMD指定容器启动参数 |
ENV | 指定容器运行时的环境变量,格式为key=value |
ARG | 定义外部变量,构建镜像时可以使用build-arg=的格式传递参数用于构建 |
EXPOSE | 指定容器监听的端口,格式为[port]/tcp或者[port]/udp |
WORKDIR | 为Dockerfile中跟在其后的所有RUN、CMD、ENDPOINT、COPY和ADD命令设置工作目录,只在当前有效 |
Docker清除数据的命令:
- docker image prune -af 仅仅清除没有被容器使用的镜像文件
- docker system prune -f 清除多余的数据,包括包含的容器、多余的镜像、未使用的volume等等。
Dockerfile书写原则:
- 单一指责:一个Dockerfile只完成一个功能
- 提供备注信息:提供注释信息
- 保持容器最小化:只保留必要的内容
- 合理选择基础镜像
- 使用.dockerignore文件
- 尽量使用构建缓存
- 正确设置时区
- Ubuntu和Debian系统: RUN ln -sf /usr/share/zoneinfo/Asia/Shanghai /etc/localtime
&& RUN echo "Asia/Shanghai" >> /etc/timezone- Centos系统:RUN ln -sd /usr/share/zoneinfo/Asia/Shanghai /etc/localtime
- 使用国内软件源增加构建镜像构建速度
- 最小化镜像层数。
Dockerfile书写建议:
- Run指令在构建时会生成一个新的镜像层并且执行RUN指令后面的内容。
- RUN指令后面跟内容复杂时,建议使用反斜杠结尾且换行;
- RUN后面的内容尽量按照字母顺序排列,提高可读性。
- CMD和ENDPOINT
- CMD/ENDPOINT指令方式:CMD/ENDPOINT ["command","param"](exec模式,Docker 官方推荐的方式);
CMD/ENDPOINT command param ,称为shell模式。- exec模式,容器的1号进程就是CMD/ENDPOINT指定的命令,shell模式启动的进程在容器中实际上并不是1号进程。
- ENDPOINT可以和CMD指令结合使用,也可以单独使用,CMD只能单独使用。
- Dockerfile中如果使用了ENDPOINT指令,启动Docker容器时需要使用--entrypoint参数才能覆盖Dockerfile中的ENDPOINT指令,
使用CMD设置的命令,可以被docker run后面的参数直接覆盖。- ADD和COPY
- COPY指令只支持基本的文件和文件拷贝功能,ADD则支持更多文件来源类型,比如自动提取tar包,并且可以支持源文件为URL格式。
基于内核的弱隔离系统如何保证安全
Docker与虚拟机的区别:
- 虚拟机是通过管理系统(hypervisor)模拟出CPU、内存、网络等硬件,这样做的好处是虚拟机有自己的内核和操作系统,
并且硬件是通过虚拟机管理系统模拟出来的,用户程序无法直接使用到主机的操作系统和硬件资源,虚拟机也对隔离性和安全性有着更好的保证。- Docker容器则是通过Linux内核的Namespace技术实现了文件系统、进程、设备以及网络的隔离,然后通过cgroups对CPU、内存等资源进行限制,
最终实现容器之间互相不受影响,由于容器的隔离性仅仅依靠内核来提供,因此容器的隔离型也远弱于虚拟机。
Docker容器的安全问题 | 解决方法 |
---|---|
Docker作为一款容器引擎, 本身也会存在一些安全漏洞 |
使用最新的版本,有相应的命名空间 |
镜像安全 | 私有镜像仓库自己进行扫描 |
Namespace隔离不够,然后部分关键 内容没有被安全隔离 |
宿主机内核应该尽量安装最新补丁; 使用capabilities划分权限;使用SELinux、 AppArmor、GRSecurity等安全组件加强安全; 每个容器都要限制资源使用 |
所有容器共享主机内核 | 使用安全容器来代替runC |
cadvisor相关
cadvisor可以监控物理机和容器的状态;可以展示监控历史数据。
cadvisor的监控是基于cgroupsde。cgroups的工作目录是/sys/fs/cgroup,/sys/fs/cgroup目录,容器启动之后,可以在
/sys/fs/cgroup/memory/docker目录下查看内存相关的数据。memory.limit_in_bytes(限制总量)、memory.usage_in_bytes(使用量)。
如果监控网络信息,在/proc/{pid}/net/dev下面读取。
为什么容器需要Namespace
Namespace产生时间
命名空间与版本的关系:
Namespace名称 | 作用 | 内核版本 |
---|---|---|
Mount(mnt) | 隔离挂载点 | 2.4.19 |
Process(pid) | 隔离进程id | 2.6.24 |
Network(net) | 隔离网络设备,端口号 | 2.6.29 |
Interprocess Communication(ipc) | 隔离System IPC和POSIX Message Queue | 2.6.19 |
UTS Namespace(uts) | 隔离主机名和域名 | 2.6.19 |
User Namespace(user) | 隔离用户和用户组 | 3.8 |
Control group Namespace | 隔离cgroups根目录 | 4.6 |
Time Namespace | 隔离系统时间 | 5.6 |
各个Namespace的作用
Mount Namespace
Mount Namespace用来隔离不同的进程或进程组看到的挂载点。
使用unshare命令可以新建Mount Namespace,并且在新建的Mount Namespace内Mount是和外部完全隔离的。
[root@centos7 centos]# sudo unshare --mount --fork /bin/bash
[root@centos7 centos]# mkdir /tmp/tmpfs
[root@centos7 centos]# mount -t tmpfs -o size=20m tmpfs /tmp/tmpfs
[root@centos7 centos]# ls -l /proc/self/ns
PID Namespace
PID Namespace的作用是用来隔离进程。
[root@centos7 centos]# sudo unshare --pid --fork --mount-proc /bin/bash
[root@centos7 centos]# ps aux # 查看进程
UTS Namespace
UTS Namespace主要是用来隔离主机名的,允许每个UTS Namespace拥有一个独立的主机名。
[root@centos7 centos]# sudo unshare --uts --fork /bin/bash
[root@centos7 centos]# hostname -b docker
[root@centos7 centos]# hostname
IPC Namespace
IPC Namespace主要是用来隔离进程间通信。
[root@centos7 centos]# sudo unshare --ipc --fork /bin/bash
[centos@centos7 ~]$ ipcs -q
[root@centos7 centos]# ipcmk -Q
ipcs -q命令:用来查看系统间通信队列列表。
ipcmk -Q命令:用来创建系统间通信队列。
User Namespace
User Namespace 主要是用来隔离用户和用户组的。
[centos@centos7 ~]$ unshare --user -r /bin/bash # 如果没有权限,执行echo 65535 > /proc/sys/user/max_user_namespaces,然后再次尝试创建 User Namespace。
Net Namespace
Net Namespace用来隔离网络设备、IP地址和端口等信息。
[root@centos7 centos]# sudo unshare --net --fork /bin/bash
如何通过Cgroups机制实现资源限制
cgroups主要功能:
- 资源限制:限制资源的使用量,设置上限。
- 优先级控制:不同的组可以有不同的资源使用优先级。
- 审计:计算控制组的资源使用情况。
- 控制:控制进程的挂起或恢复。
Cgroups功能的实现依赖与三个核心概念:子系统、控制组、层级树。
- 子系统:是一个内核的组件,一个子系统代表一类资源调度控制器。
- 控制组:一组进程和一组带有参数的子系统的关联关系。
- 层级树:一系列的控制组按照树状结构排列组成的。
sudo mount -t cgroup # 查看当前系统已经挂载的cgroups信息
CPU子系统
在cpu子系统下创建cgroup
[root@centos7 centos]# mkdir /sys/fs/cgroup/cpu/mydocker
创建进程,加入cgroup
[root@centos7 centos]# cd /sys/fs/cgroup/cpu/mydocker
[root@centos7 centos]# echo $$ > tasks
执行CPU耗时任务,验证cgroup是否可以限制cpu使用时间
[root@centos7 centos]# cd /sys/fs/cgroup/cpu/mydocker
[root@centos7 centos]# echo 50000 > cpu.cfs_quota_us
memory 子系统
在memory子系统下创建cgroup
[root@centos7 centos]# mkdir /sys/fs/cgroup/memory/mydocker
创建进程,加入cgroup
[root@centos7 centos]# cd /sys/fs/cgroup/cpu/mydocker
[root@centos7 centos]# echo $$ > tasks
删除cgroups
[root@centos7 centos]# rmdir /sys/fs/cgroup/memory/mydocker
Docker组件机器原理
docker相关的组件:docker、dockerd、docker-init和docker-proxy。
containerd相关的组件:containerd、container-shim和ctr。
容器运行时相关的组件:runC。
dockerd
dockerd是Docker服务端的后台常驻进程,用来接收客户端发送的请求,执行具体的处理任务,处理完成后将结果返回给客户端。
Docker客户端与dockerd的交互方式:
- unix套接字与服务端通信:配置格式为,unix://socket_path,默认为/var/run/docker.sock,该文件只有root或者docker用户可以访问。
- TCP与服务端通信:可以配置为tcp://host:port。
- 文件描述符的方式与服务端通信:配置格式为: fd:// 这种格式一般用于systemd管理的系统中。
docker-init
init进程是1号进程,在docker run启动容器时可以添加--init参数,此时docker会使用docker-init作为1号进程。
docker-proxy
docker-proxy主要是用来做端口映射的。docker-proxy组件就会把容器内先赢的端口映射到主机上来,底层是依赖iptables实现的。
[root@centos7 centos]# sudo iptables -L -nv -t nat # iptables nat表的规则。
docker是官方实现的标准客户端,dockerd是Docker服务端的入口,负责接收客户端发送的指令并返回相应结果,docker-init在业务主进程没有进程回收功能,
docker-proxy组件是实现Docker网络访问的主要组件。
containerd
containerd不仅负责容器生命周期的管理,同时负责一些其他的功能:
- 镜像的管理
- 接收dockerd的请求,通过适当的参数调用runC启动容器;
- 管理存储相关资源;
- 管理网络相关资源;
containerd包含一个后台常驻进程,默认的socket路径为/run/containerd/containerd.sock,dockerd通过unix套接字向containerd发送请求,
containerd接收到请求后负责执行相关的动作并把执行结果返回给dockerd。
container-shim
container-shim的主要作用是将containerd和真正的容器进程解耦,使用container-shim作为容器进程的父进程,
从而实现containerd不影响已经启动的容器进程。
ctr
ctr是containerd-ctr,它是containerd的客户端,主要用来开发和调试。
runC
[root@centos7 centos]# cd /home/centos
[root@centos7 centos]# mkdir runc # 创建runc运行根目录
[root@centos7 centos]# mkdir rootfs &&& docker export $(docker create busybox) | tar -C rootfs -xvf - # 导入rootfs镜像文件
[root@centos7 centos]# runc spec
[root@centos7 centos]# cat config.json
[root@centos7 centos]# runc run busybox # 启动容器
[root@centos7 centos]# cd /home/centos/runc
[root@centos7 centos]# runc list
组件分类 | 组件名称 | 作用剖析 |
---|---|---|
Docker相关组件 | docker | Docker客户端,负责发送Docker操作请求 |
Docker相关组件 | dockerd | Docker服务端入口,负责接收客户端请求并返回结果 |
Docker相关组件 | docker-init | 业务主进程没有回收能力时,docker-init可以作为容器的1号进程,负责管理容器的内子进程 |
Docker相关组件 | docker-proxy | 用于Docker的网络实现,通过设置iptables规则使得访问到主机的流量可以转发到容器中 |
containerd相关组件 | containerd | 负责管理容器的生命周期,接收dockerd的请求,执行启动或者销毁容器操作 |
containerd相关组件 | containerd-shim | 将containerd和真正的容器进行解解耦,使用containerd-shim作为容器进程的父进程,可以实现重启containerd不影响已经启动的容器进程 |
containerd相关组件 | ctr | containerd的客户端,可以直接向containerd发送容器操作请求,主要用来测试和开发 |
容器运行时组件 | runc | 通过Namespace、Cgroups等系统接口,实现容器的创建和销毁 |
Docker网络模型
libnetwork常见的网络模式 | 作用 | 业务场景 |
---|---|---|
null空间模式 | 不提供任何容器网络 | 处理一些保密数据,需要一个隔离的网络环境执行一些纯计算任务 |
bridge桥接模式 | 使得容器与容器之间网络可以互通 | 容器需要实现网络通信或者提供网络服务 |
host主机模式 | 让容器内的程序可以使用到主机的网络 | 容器需要控制主机网络或者使用主机网络提供服务 |
container网络模式 | 将两个容器放到同一个网络空间中,可以直接通过localhost本地访问 | 两个容器之间需要通过localhost通信 |