Rancher 节点根目录空间不足解决方法

1. 问题描述

由于创建 rancher 节点服务器时,没有规划好磁盘目录空间,按照默认配置,根目录 / 只有 50G,而 docker 的默认安装路径是 /var/lib/docker,导致根目录使用率达到 85%,Rancher 节点频繁报磁盘压力告警 kubelet has disk pressure,所以需要修改 docker 默认数据目录。

2. 修改 docker 默认数据目录

  1. 首先查看当前数据目录
docker info | grep 'Docker Root Dir'
Docker Root Dir: /var/lib/docker
  1. 停止 docker 服务
systemctl stop docker
  1. 在有空间的目录下创建新目录
mkdir -p /home/docker/
  1. 拷贝数据至新目录
cp -R /var/lib/docker /home/docker/
  1. 修改配置文件
vi /etc/docker/daemon.json

配置 “graph” 参数,我这里 docker 版本是 20.10,其他版本自行查看配置方法

{
  "graph": "/home/docker"
}
  1. 加载配置文件并重启服务
systemctl daemon-reload
systemctl restart docker
  1. 修改后,重新查看 docker 信息
docker info | grep 'Docker Root Dir'
Docker Root Dir: /home/docker
  1. 确认无误后,删除根目录下老数据
rm -rf /var/lib/docker/
3. 问题

由于在 Rancher 中之前已经在该节点部署过工作负载,再次启动容器时报错如下:

failed to create sandbox: 
ResolvConfPath /home/docker/container/xxx/resolv.conf does not exist

尝试了很多方法都无法解决该问题,最终只能重新加入该节点。

  1. 驱散节点
    在 Rancher 节点管理中,驱散该节点,驱散完成后状态为 drained,然后删除该节点
  2. 清理节点
    使用官方节点清理脚本清理该节点

#!/bin/bash

KUBE_SVC='
kubelet
kube-scheduler
kube-proxy
kube-controller-manager
kube-apiserver
'

for kube_svc in ${KUBE_SVC};
do
  # 停止服务
  if [[ `systemctl is-active ${kube_svc}` == 'active' ]]; then
    systemctl stop ${kube_svc}
  fi
  # 禁止服务开机启动
  if [[ `systemctl is-enabled ${kube_svc}` == 'enabled' ]]; then
    systemctl disable ${kube_svc}
  fi
done

# 停止所有容器
docker stop $(docker ps -aq)

# 删除所有容器
docker rm -f $(docker ps -qa)

# 删除所有容器卷
docker volume rm $(docker volume ls -q)

# 卸载mount目录
for mount in $(mount | grep tmpfs | grep '/var/lib/kubelet' | awk '{ print $3 }') /var/lib/kubelet /var/lib/rancher;
do
  umount $mount;
done

# 备份目录
mv /etc/kubernetes /etc/kubernetes-bak-$(date +"%Y%m%d%H%M")
mv /var/lib/etcd /var/lib/etcd-bak-$(date +"%Y%m%d%H%M")
mv /var/lib/rancher /var/lib/rancher-bak-$(date +"%Y%m%d%H%M")
mv /opt/rke /opt/rke-bak-$(date +"%Y%m%d%H%M")

# 删除残留路径
rm -rf /etc/ceph \
    /etc/cni \
    /opt/cni \
    /run/secrets/kubernetes.io \
    /run/calico \
    /run/flannel \
    /var/lib/calico \
    /var/lib/cni \
    /var/lib/kubelet \
    /var/log/containers \
    /var/log/kube-audit \
    /var/log/pods \
    /var/run/calico \
    /usr/libexec/kubernetes

# 清理网络接口
no_del_net_inter='
lo
docker0
eth
ens
bond
'

network_interface=`ls /sys/class/net`

for net_inter in $network_interface;
do
  if ! echo "${no_del_net_inter}" | grep -qE ${net_inter:0:3}; then
    ip link delete $net_inter
  fi
done

# 清理残留进程
port_list='
80
443
6443
2376
2379
2380
8472
9099
10250
10254
'

for port in $port_list;
do
  pid=`netstat -atlnup | grep $port | awk '{print $7}' | awk -F '/' '{print $1}' | grep -v - | sort -rnk2 | uniq`
  if [[ -n $pid ]]; then
    kill -9 $pid
  fi
done

kube_pid=`ps -ef | grep -v grep | grep kube | awk '{print $2}'`

if [[ -n $kube_pid ]]; then
  kill -9 $kube_pid
fi

# 清理Iptables表
## 注意:如果节点Iptables有特殊配置,以下命令请谨慎操作
sudo iptables --flush
sudo iptables --flush --table nat
sudo iptables --flush --table filter
sudo iptables --table nat --delete-chain
sudo iptables --table filter --delete-chain
systemctl restart docker

  1. 重新加入该节点

你可能感兴趣的:(服务器运维,Rancher,k8s,rancher,docker,容器)