一次服务器磁盘空间爆炸的排查

昨天服务器短信提醒,磁盘占用率持续91%。再上一次已经处理过,删了几个软件,最后降了不少,但是增长的速度有点快,昨天收到短信马上就抽时间排查错误。

磁盘占用从91%降到 28% ,效果还是可以的,接下来记录排查历程:

  • 查看每个目录占用的空间大小:du -sh *
➜  ~ cd / && du -sh *

0 bin
184M boot
0 dev
37M etc
4.0K home
0 lib
0 lib64
16K lost+found
8.0K media
4.0K mnt
283M opt
du: 无法访问"proc/12104/task/12104/fd/4": 没有那个文件或目录
du: 无法访问"proc/12104/task/12104/fdinfo/4": 没有那个文件或目录
du: 无法访问"proc/12104/fd/4": 没有那个文件或目录
du: 无法访问"proc/12104/fdinfo/4": 没有那个文件或目录
0 proc
1.1G root
492K run
0 sbin
4.0K srv
0 sys
68K tmp
2.0G usr
2.1G var

经过查看,整体目录占用的空间不多,10G不到。如果在这查到占用多的文件,一层一层查询进去先删除,大多数都是日志的问题。

  • 查看占用空间大的已删除文件进程: lsof |grep delete
➜  ~ lsof |grep delete
一次服务器磁盘空间爆炸的排查_第1张图片
图片发自App

罪魁祸首已经找到: pm2日志占用空间太大,并且已经删除,但是进程还在运作。

  • 清理 : kill 17817

经过杀掉没用进程后,存储空间恢复了正常

最后运维朋友送了三条最值钱的经验:

1. 有删除操作的时候,反复确认下当前路径,避免误删。

2. 配置修改前记得备份。

3. 重要数据定期备份。

你可能感兴趣的:(一次服务器磁盘空间爆炸的排查)