Docker 空间检测及清理

1. 故事背景

客户服务器运行了有2年左右了,突然有一点硬盘满了,导致了服务权限崩溃(这台服务器又刚刚好没有做空间检测报警)。

登录后,我快速清理了几个大的 log 文件,然后重启服务后开始排查问题。

# 查看硬盘
$ df -lh

2. 如何排查

2.1 Log目录空间检测

首先想到的是服务的 log 文件积累过多,但是服务器是有做日志自动清理的,所以最终清理下来没有释放多少空间。

# 查看 log 专属目录的空间占用
$ du -h --max-depth=2 /data/docker/log

2.2 Docker 容器空间占用

我们的服务都是基于 docker 构建与运行的,上面 /data/docker/log 存放的都是 docker container 映射到 host 主机的 log 文件。经过检测是大小正常的,占用不大。

那么还有另外一种可能就是 docker container 里没有映射到主机的,一般的 docker ps 指令都是没有相关的空间信息,需要通过以下指令进一步分析:

# 查看 Docker 的磁盘使用情况。(镜像、容器)
$ docker system df
> 
TYPE            TOTAL     ACTIVE    SIZE      RECLAIMABLE
Images          19        19        8.844GB   4.094GB (46%)
Containers      28        24        1.572GB   19.8MB (1%)
Local Volumes   2         2         298.2MB   0B (0%)
Build Cache     0         0         0B        0B


# 查看每个 container 容器的占用磁盘空间
$ docker system df -v

# docker 基本信息(包含一些空间使用)
$ docker info

简单无用信息清理

查看后,我使用以下指令进行初步的无用信息清理。最终发现这部分资源占用实际也不到。

# 用于清理磁盘,删除关闭的容器、无用的数据卷和网络,以及 dangling 镜像(即无 tag 的镜像)
docker system prune

# 清理得更加彻底,可以将没有容器使用 Docker 镜像都删掉。
$ docker system prune -a

针对性 docker container 分析

# 可以查看到 container 所在的目录(关键的是 LogPath)
$ docker inspect [你的container]
>
"HostsPath": "/data/lib/docker/containers/7775513b1f06c08bc4be422dc7b399fc917da32ed7cd1aab8fca299fb15128b7/hosts",
"LogPath": "/data/lib/docker/containers/7775513b1f06c08bc4be422dc7b399fc917da32ed7cd1aab8fca299fb15128b7/7775513b1f06c08bc4be422dc7b399fc917da32ed7cd1aab8fca299fb15128b7-json.log",
  
# 【重点】查看整个 docker containers 的大小
$ du -h --max-depth=0 /data/lib/docker/containers

# 找出各个 docker container 的空间占用大小
$ du -h --max-depth=1 /data/lib/docker/containers

果然是存在 docker container 空间占用过大的,接下来我们就要清理一下该 container 的日志

# 查看容器名字
docker inspect [容器ID]|grep Name

# 查看容器的日志路径(就是刚说到的 LogPath,实际也就是 container_id/container_id.json)
$ docker inspect [占用空间大的 Container ID]|grep "LogPath"
# 或者
$ docker inspect --format='{{.LogPath}}' [容器ID]

# 清理log文件 (一般需要先进入到 su root)
$ > [要清空的文件路径]

# 或者
$ sudo echo -n "" [要清空的文件路径]

3. 运维配置

Docker在不重建容器的情况下,日志文件默认会一直追加,时间一长会逐渐占满服务器的硬盘的空间,内存消耗也会一直增加。

docker logs -f [容器ID] --tail=100 看到的标准输出(console.log/puts/print)都会一直累计到 json.log,如果容器不销毁,就会越来越大。

限制单个 container 的容量大小

避免某个 container 导致整服务崩溃。

启动容器时,我们可以通过参数来控制日志的文件个数和单个文件的大小

# max-size 最大数值。容器的单个日志文件大小
# max-file 最大日志数。容器的日志文件数量,当单个文件大小达到 max-size 时自动切割: id-json.log、id-json.log.1、id-json.log.2...
$ docker run -it --log-opt max-size=100m --log-opt max-file=3 [container name]

测试

# rails c
> (0..10000).each{Logger.new('/proc/1/fd/1').warn("输出到 docker logs")}

全局配置

// /etc/docker/daemon.json
{
    "log-driver":"json-file",
    "log-opts":{
        "max-size" :"50m","max-file":"1"
    }
}
// 重启服务
$ sudo systemctl daemon-reload
$ sudo systemctl restart docker

你可能感兴趣的:(Docker 空间检测及清理)