好处
生产实践中一定优先使用 Dockerfile 的方式构建镜像,因为使用 Dockerfile 构建镜像可以带来如下好处:
● 易于版本化管理,Dockerfile 本身是一个文本文件,方便存放在代码仓库中做版本管理,可以很方便地找到各个版本之间的变更历史;
● 过程可追溯,Dockerfile 的每一行指令代表一个镜像层,根据 Dockerfile 的内容即可明确地查看镜像的完整构建过程;
● 屏蔽构建环境异构,使用 Dockerfile 构建镜像无须考虑构建环境,基于相同 Dockerfile 无论在哪里运行,构建结果都一致。
书写原则
虽然好处不少,但使用不当也会引发很多问题,例如:
● 镜像构建时间过长,导致镜像构建失败;
● 镜像层数过多,导致镜像文件过大。
如果要在生产环境中编写出最优的 Dockerfile,首先应该尽量遵循相关的原则:
(1) 单一职责
由于容器的本质是进程,一个容器代表一个进程,因此不同功能的应用应该尽量拆分为不同的容器,每个容器负责单一业务进程。
(2) 提供注释信息
Dockerfile 也是一种代码,应该保持良好的代码编写习惯,晦涩难懂的代码尽量添加注释,让协作者可以一目了然地知道每行代码的作用,并且方便扩展和使用。
(3) 保持容器最小化
应该避免安装无用的软件包,这样不仅可以加快容器构建速度,还可以避免镜像体积过大。
(4) 合理选择基础镜像
容器的核心是应用,因此只要基础镜像能够满足应用的运行环境即可。
(5) 使用.dockerignore文件
使用 .dockerignore 文件可以在构建时忽略一些不需要参与构建的文件,从而提升构建效率。类似于在使用 git 时,我们可以使用 .gitignore 文件忽略一些不需要做版本管理的文件。
规则 | 含义 |
---|---|
# | # 开头的表示注释 |
/tmp | 匹配当前目录下任何以 tmp 开头的文件或者文件夹 |
*.md | 匹配以 .md 为后缀的任意文件 |
my? | 匹配以 my 开头并且以任意字符结尾的文件(?代表任意一个字符) |
!README.md | ! 表示排除忽略 例如 .dockerignore 定义如下: *.md !README.md 表示除了 README.md 文件外所有以 .md 结尾的文件。 |
(6) 尽量使用构建缓存
Docker 构建过程中,每一条 Dockerfile 指令都会提交为一个镜像层,下一条指令都是基于上一条指令构建的。如果构建时发现要构建的镜像层的父镜像层已经存在,并且下一条命令使用了相同的指令,即可命中构建缓存。
基于 Docker 构建时的缓存特性,我们可以把不轻易改变的指令放到 Dockerfile 前面(例如安装软件包),而可能经常发生改变的指令放在 Dockerfile 末尾(例如编译应用程序)。Docker 构建时判断是否需要使用缓存的规则如下:
- 从当前构建层开始,比较所有的子镜像,检查所有的构建指令是否与当前完全一致,如果不一致,则不使用缓存;
- 一般情况下,只需要对比构建指令即可判断是否需要使用缓存,但是有些指令除外(例如ADD和COPY);
- 对于ADD和COPY指令不仅要校验命令是否一致,还要为即将拷贝到容器的文件计算校验和(根据文件内容计算出的一个数值,如果两个文件计算的数值一致,表示两个文件内容一致 ),命令和校验和完全一致,才认为命中缓存。
(7) 正确设置时区
从 Docker Hub 拉取的官方操作系统镜像大多数都是 UTC 时间(世界标准时间),如果容器应用对时间敏感,需要使用中国区标准时间(东八区),则可以在 Dockerfile 中添加以下指令:
RUN ln -sf /usr/share/zoneinfo/Asia/Shanghai /etc/localtime && echo "Asia/Shanghai" >> /etc/timezone
(8) 使用国内软件源加快镜像构建速度
常用的官方操作系统镜像基本都是国外的,如果我们构建镜像的时候想要安装一些软件包可能会非常慢,以 CentOS 7 使用 163 软件源为例:
# CentOS7-Base-163.repo
#
[base]
name=CentOS-$releasever - Base - 163.com
repo=os
baseurl=http://mirrors.163.com/centos/$releasever/os/$basearch/
gpgcheck=1
gpgkey=http://mirrors.163.com/centos/RPM-GPG-KEY-CentOS-7
[updates]
name=CentOS-$releasever - Updates - 163.com
repo=updates
baseurl=http://mirrors.163.com/centos/$releasever/updates/$basearch/
gpgcheck=1
gpgkey=http://mirrors.163.com/centos/RPM-GPG-KEY-CentOS-7
[extras]
name=CentOS-$releasever - Extras - 163.com
repo=extras
baseurl=http://mirrors.163.com/centos/$releasever/extras/$basearch/
gpgcheck=1
gpgkey=http://mirrors.163.com/centos/RPM-GPG-KEY-CentOS-7
[centosplus]
name=CentOS-$releasever - Plus - 163.com
baseurl=http://mirrors.163.com/centos/$releasever/centosplus/$basearch/
gpgcheck=1
enabled=0
gpgkey=http://mirrors.163.com/centos/RPM-GPG-KEY-CentOS-7
随后在 Dockerfile 中添加如下指令:
COPY CentOS7-Base-163.repo /etc/yum.repos.d/CentOS7-Base.repo
(9) 最小化镜像层数
在构建镜像时尽可能地减少 Dockerfile 指令行数,主要是 RUN 指令如下:
RUN yum -y install make net-tools
书写建议
(1) RUN
RUN 指令在构建时将会生成一个新的镜像层并且执行 RUN 指令后面的内容,使用 RUN 指令时应该尽量遵循以下原则:
- 当 RUN 指令后面跟的内容比较复杂时,建议使用反斜杠(\)结尾并且换行;
- RUN 指令后面的内容尽量按照字母顺序排序,提高可读性。
FROM centos:7
RUN yum -y install automake \
curl \
python \
vim \
(2) CMD 和 ENTRYPOINT
CMD 和 ENTRYPOINT 指令都是容器运行的命令入口,它们基本使用格式分两种:
-
CMD/ENTRYPOINT ["command" , "param"]
,这种格式是使用Linux的exec
实现的,一般称为exec 模式
,这种书写格式为指令后跟 json 数组,也是 Docker 推荐使用的格式。 -
CMD/ENTRYPOINT command param
,这种格式是基于 shell 实现的,一般称为shell 模式
,Docker 会以/bin/sh -c command
的方式执行命令。
它们之间的区别如下:
- Dockerfile 中如果使用了 ENTRYPOINT 指令,启动 Docker 容器时需要使用 --entrypoint 参数才能覆盖 Dockerfile 中的 ENTRYPOINT 指令 ,而使用 CMD 设置的命令则可以被 docker run 后面的参数直接覆盖。
- ENTRYPOINT 指令可以结合 CMD 指令使用,也可以单独使用,而 CMD 指令只能单独使用。
- 使用 exec 模式启动容器时,指令指定的命令就是容器的 1 号进程,而 shell 模式启动的进程在容器中实际并不是 1 号进程。
- 如果希望镜像足够灵活,推荐使用 CMD 指令。如果镜像只执行单一的具体程序,并且不希望在执行 docker run 时覆盖默认程序,建议使用 ENTRYPOINT。
(3) ADD 和 COPY
ADD 和 COPY 指令功能类似,都是从外部往容器内添加文件。但是 COPY 指令只支持基本的文件和文件夹拷贝功能,ADD 则支持更多文件来源类型,比如自动提取 tar 包,并且可以支持源文件为 URL 格式。
日常应用,更推荐使用 COPY 指令, 因此该指令更加透明,仅支持本地文件向容器拷贝,而且可以更好地利用构建缓存,有效减小镜像体积。
### 当想用 ADD 向容器中添加 URL 文件时,可使用如下写法替代:
RUN wget -O /tmp/memtester-4.3.0.tar.gz http://pyropus.ca/software/memtester/old-versions/memtester-4.3.0.tar.gz \
&& tar -xvf /tmp/memtester-4.3.0.tar.gz -C /tmp \
&& make -C /tmp/memtester-4.3.0 && make -C /tmp/memtester-4.3.0 install
(4) WORKDIR
为了使构建过程更加清晰明了,推荐使用 WORKDIR 来指定容器的工作路径,尽量避免使用 RUN cd /work/path
这样的指令来切换工作路径。