k8s集群整个down,主机反复重启---承接上一篇文章(k8s一节点ip无故反复断连接)

现象:

测试环境,某 运维人员在做例行变更(增加zabbix监控主机资源),并增加根目录空间,重启某一台node节点后,所有node节点出现重启,并且一直重启,无法正常服务

环境:

k8s集群运行于vSphere 虚拟化平台上,版本centos7.4

结论:

在部署的k8s集群的时候,之前由于根目录空间不足,将docker默认使用的/var/lib/docker 目录link到/app/docker-data/docker目录下面,不知道是否是bug,已经运行一年多的集群,居然突然出现node节点重启。后面重装所有master,node节点的docker,并且沿用/var/lib/docker(目录非link),问题解决

定位过程:

1.前期基本定位

  • 该问题很难定位,因为虚拟机一直在重启,开始主要在定位操作系统的重启原因,但是根本没有定位出问题,只能看到:
    `
    ausearch -i -m system_boot,system_shutdown | tail -4

type=SYSTEM_BOOT msg=audit(06/29/2020 19:10:02.821:7) : pid=832 uid=root auid=unset ses=unset msg=' comm=systemd-update-utmp exe=/usr/lib/systemd/systemd-update-utmp hostname=? addr=? terminal=? res=success'

type=SYSTEM_BOOT msg=audit(06/29/2020 20:14:27.786:7) : pid=830 uid=root auid=unset ses=unset msg=' comm=systemd-update-utmp exe=/usr/lib/systemd/systemd-update-utmp hostname=? addr=? terminal=? res=success'
`
没有任何价值。

  • 联想到由于做了zabbix的监控,故停止监控,停止后,node节点依然重启
  • 通过vSphere断掉虚拟机网卡,发现节点不在重启,怀疑是网络问题
  • 停止caclio插件,node节点依然重启,并停止node节点上的caclio容器,停止后,node节点依然重启;再次启动caclio插件后,我艹,问题出来了,master节点也挂了,整个k8s测试集群全部在重启,晕死。。。

2.第二个阶段

  • 整个集群全部挂了,那只能找其中一台来定位,首要任务是恢复master,node节点先等等。
  • 虚拟机启动后,先停止两个服务:
    systemctl stop docker
    systemctl stop kubelet
    停止以后,虚拟机没有再次出现重启的问题
  • 启动docker,并停止docker里面的所有容器,虚拟机没有继续重启
  • 启动master节点上的keepalived,发现keepalived一旦启动,虚拟机立刻重启,难道和keepalived有关系
  • 在node节点启动下keepalived ,同样会重启,在其他装有容器的虚拟机上,启动keepalived ,并没法发生重启,相同镜像版本的keepalived,什么鬼??
  • 难道不是keepalived的问题,而是docker的问题;重复上面的步骤:即停止容器和kubelet。并停止docker里面的所有容器,启动其他容器服务,本次在master节点操作,运行的服务是haproxy,结果虚拟机。难道是docker问题,docker用的版本是:Docker version 18.06.1-ce, build e68fc7a,也是一个成熟的版本,不该有问题才是;
  • 看了好久的docker日志,也没有看出什么问题来,启动docker都正常,就是不能启用服务
  • 偶然想到,之前docker的文件放在/var/lib/docker ,且是link到,改回源目录/var/lib/docker,重启docker以后,再次尝试,依然不行;重装docker,并使用默认的目录/var/lib/docker,然后再次验证发现问题不在出现
  • 恢复集群,重装下docker,并且扩下根目录,问题搞定,但是为何导致主机重启,还未发现原因。新装虚拟机,并重装docker,也做成link,无法重现。。。。
  • 且运行了一年有余都没问题,再次先做记录,后面先规避此类问题先,有空的时候去dockerhub上看看是否有类似bug。

你可能感兴趣的:(k8s集群整个down,主机反复重启---承接上一篇文章(k8s一节点ip无故反复断连接))