ceph现场问题解决(系统卡满导致mon无法启动)

今天遇到一个现场,16节点每节点48盘位集群,5mon重启运行过程中,系统卡分区被挤爆,占用达100%,为了重启拉起mon,做了如下排查:

  1. 通过du -Bm --max-depth=1 / 和 du -d1 -Bm -h ./查找根分区下的大文件,找到mon rocksdb数据库的sst文件总和竟达到7g之多,这个肯定不能删,后续会专门说明一下这个文件为什么这么大

  2. 通过问题1找到了大文件,但是不能删,只能通过删除根分区下其他的大文件来讲根分区释放处理, 大致找了下一些没有用处的rpm安装包,然后进行了卸载,命令如下:
    yum autoremove texlive-base
    yum autoremove mariadb-test
    yum autoremove emacs
    yum autoremove gnome-weather
    yum autoremove net-snmp
    yum autoremove net-snmp-libs
    yum autoremove gimp

  3. /var/log/journal/abf6c3e0a96f452ab2efd6c2d1a9c1e0/ 这个文件占用了大量空间,通过对journal分区的修改,释放出了近1g的空间,journal空间为日志/var/log/message的journal,journal的具体作用就不多说了,基本命令如下:
    vi /etc/systemd/journald.conf
    SystemMaxUse=800M 修改此值为80M
    systemctl restart systemd-journald 重启该服务
    ll /var/log/journal/abf6c3e0a96f452ab2efd6c2d1a9c1e0/ 查看大小确实变小了不少

经过上面几部的处理基本将系统卡空间释放出了不少,这时候重启了一下mon,mon起来了,mon运行一段时间后mon 数据库rocksdb 的sst文件被trim掉,空间彻底释放了出来。
ceph现场问题解决(系统卡满导致mon无法启动)_第1张图片

.

你可能感兴趣的:(linux)