Linux 服务器上的大文件查找及清理实践

生产上的 Linux 服务器磁盘空间不足,后面排查得知是某个应用频繁写 log 导致。于是加了一条自动清理过期日志的 crontab 。
具体的排查过程记录如下,都是很基础的命令。

一、df

df -h 命令查看当前磁盘空间的使用情况:

# df -h
Filesystem      Size  Used Avail Use% Mounted on
/dev/vda1        50G   50G    0G  100% /
devtmpfs        3.9G     0  3.9G   0% /dev
tmpfs           3.9G   24K  3.9G   1% /dev/shm
tmpfs           3.9G  476K  3.9G   1% /run
tmpfs           3.9G     0  3.9G   0% /sys/fs/cgroup
tmpfs           783M     0  783M   0% /run/user/0

系统只有一个磁盘分区 /dev/vda1,大小为 50G,已挂载到根目录下,用量为 100%,确实没有剩余空间。

以此可断定并非存在分区划分不合理的情况。比如磁盘大部分容量分配给了其他分区,挂载到诸如 /home/usr 等目录下导致 / 路径下没有足够的空间。

二、lsblk

lsblk 命令查看硬盘的分区与挂载点:

# lsblk
NAME   MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sr0     11:0    1   37M  0 rom
vda    253:0    0   50G  0 disk
`-vda1 253:1    0   50G  0 part /

当前只有一块硬盘 vda,大小为 50G,全部分配给了唯一的分区 vda1,不存在剩余空间。

此处可以确定硬盘的所有容量都已被分配使用。不存在剩余空间(未分配区域)或者因为 LVM 卷导致仍有空闲存储未被使用等情况。

三、du

du 命令统计文件和目录占用的磁盘空间大小。

du 命令默认会以递归的方式输出当前路径中包含的所有文件的大小(以目录为单位显示),信息量有时会比较庞大。
可以使用 -s 选项获取当前目录下所有文件的大小总和。或者使用 -d 选项指定遍历的深度,即只统计到某一层目录而无需展开到更深层的子目录。

当前 Linux 服务器上的应用都部署在某个特定的路径下,因此切换到该目录并统计其中文件占用的磁盘空间大小总和:

# du -sh
12G     .

通过 -d 选项指定遍历的层数为 1,显示当前路径下包含的每一个子目录各自占用的磁盘空间总和:

# du -hd1
80K     ./work
7.6M    ./lib
12G     ./logs
236K    ./conf
4.0K    ./temp
221M    ./webapps
15M     ./backup
860K    ./bin
12G     .

可以看到 logs 子目录下的文件总共占用了 12G 存储空间,几乎与整个目录大小相当。因此基本可以确定 logs 目录为需要进一步排查的对象。

PS:如当前路径下子目录众多,也可以使用 sort 命令对输出结果按大小进行排序。

# du -d1 | sort -nr
12448764        .
12199320        ./logs
225988  ./webapps
14432   ./backup
7736    ./lib
860     ./bin
236     ./conf
80      ./work
4       ./temp

sort 命令的 -n 选项表示以数字大小为排序依据,-r 则表示逆序输出排序结果。
du 命令去掉 -h 选项则避免将文件大小(bytes)自动转换为 KB、MB、GB 等导致单位不一致。可以使用 -k-m 等选项手动指定 du 命令的单位。

四、ls

ls 命令获取指定目录下包含的文件列表(及详细信息)。

# ls -Slh logs | head -8
total 12G
-rw-r--r-- 1 tomcat Devops 3.5G Dec 29 01:40 catalina.out
-rw-r----- 1 root   root   108M Nov 15 00:00 localhost_access.2019-11-14.log
-rw-r----- 1 root   root   107M Nov 22 00:00 localhost_access.2019-11-21.log
-rw-r----- 1 root   root   106M Nov 14 00:00 localhost_access.2019-11-13.log
-rw-r----- 1 root   root   104M Nov 17 00:00 localhost_access.2019-11-16.log
-rw-r----- 1 root   root   104M Nov 23 00:00 localhost_access.2019-11-22.log
-rw-r----- 1 root   root   104M Nov 13 00:00 localhost_access.2019-11-12.log

其中 -S 选项用于将输出结果按文件大小排序,-l 选项指定输出各文件的详细信息。由于 logs 目录下文件众多,使用 head -8 筛选前 8 条输出进行显示。

此时即可根据对文件大小和功能的判断手动执行删除操作。

五、find

find 命令筛选指定时期内创建的文件

logs 目录下每天都会创建新的日志文件,导致占用的磁盘空间与日俱增。因此需要定期删除指定日期以前的旧文件,释放不必要的空间占用。

如删除当前目录下只在 60 天以前修改过的文件,保留最近两个月的日志记录:

# find . -mtime +60 -type f -exec rm {} \;

将该命令添加到 crontab 中,设置好定时规则,即可定期执行清理任务,避免过高的磁盘占用。

命令总结

  • du -h:查看当前系统中磁盘空间的使用情况
  • lsblk:查看当前系统中磁盘的分区和挂载情况
  • du -hd1:查看当前目录下各子目录分别占用的磁盘空间大小
  • ls -Slh | head -8:列出当前目录下所有文件的详细信息,结果由大到小排序,输出前 8 条
  • find . -mtime +60 -type f -exec rm {} \;:查找当前目录下所有 60 天之前修改过的文件并删除

你可能感兴趣的:(Linux 服务器上的大文件查找及清理实践)