2023.6.8-TS-yum update集群后奔溃故障(已解决)

2023.6.8-TS-yum update集群后奔溃故障(已解决)

2023.6.8-TS-yum update集群后奔溃故障(已解决)_第1张图片

1、故障背景

自己在安装falco软件时,使用yum update升级了系统后,就出现这个情况了。。。

2023.6.8-TS-yum update集群后奔溃故障(已解决)_第2张图片

2、报错现象

kubeclt无法查看pod

kubectl get po

E0608 09:38:49.094714    2268 memcache.go:265] couldn't get current server API group list: Get "https://172.29.9.31:6443/api?timeout=32s": dial tcp 172.29.9.31:6443: connect: connection refused

image-20230608094321152

kubelt报错日志

[root@k8s-master1 manifests]#journalctl -xefu kubelet

2023.6.8-TS-yum update集群后奔溃故障(已解决)_第3张图片

kubelet状态:dead

[root@k8s-master1 manifests]#systemctl status kubelet

2023.6.8-TS-yum update集群后奔溃故障(已解决)_第4张图片

查看基础环境

查看selinux关闭的,swap分区也是关闭的,防火墙关闭的,运行的容器为空

2023.6.8-TS-yum update集群后奔溃故障(已解决)_第5张图片

找到问题

经过关键字查找,发现是更新之后k8s自动升级到了1.26版本,由于1.21版本之后弃用docker所以导致集群不可用

2023.6.8-TS-yum update集群后奔溃故障(已解决)_第6张图片

自己之前k8s版本:

image-20230609063035607

2023.6.8-TS-yum update集群后奔溃故障(已解决)_第7张图片

[root@k8s-node1 ~]#rpm -qa|grep kubectl
kubectl-1.20.0-0.x86_64
[root@k8s-node1 ~]#rpm -qa|grep kubeadm
kubeadm-1.20.0-0.x86_64
[root@k8s-node1 ~]#rpm -qa|grep kubelet
kubelet-1.20.0-0.x86_64
[root@k8s-node1 ~]#

3、解决过程

重启集群(失败)

百度:降级安装k8s版本(成功)

将集群中所有节点降级(这里只操作k8s-master1节点),把k8s相关服务降级到1.20版本,虽然官方说明1.21之后弃用docker但是,1.20还是可用的

此处为测试环境,生产环境建议严格按照官方要求

yum downgrade kubectl-1.20.0-0.x86_64 \
kubeadm-1.20.0-0.x86_64 \
kubelet-1.20.0-0.x86_64

2023.6.8-TS-yum update集群后奔溃故障(已解决)_第8张图片

2023.6.8-TS-yum update集群后奔溃故障(已解决)_第9张图片

2023.6.8-TS-yum update集群后奔溃故障(已解决)_第10张图片

  • 重载服务,查看服务状态

2023.6.8-TS-yum update集群后奔溃故障(已解决)_第11张图片

  • 安装完成后,经查询集群已全部恢复正常

2023.6.8-TS-yum update集群后奔溃故障(已解决)_第12张图片

  • 重启k8s集群,再次观察现象

重启后,k8s集群依然是可以使用的。

2023.6.8-TS-yum update集群后奔溃故障(已解决)_第13张图片

此问题已解决。

附加:

  • 这里也降级下k8s-master1节点的docker版本

2023.6.8-TS-yum update集群后奔溃故障(已解决)_第14张图片

2023.6.8-TS-yum update集群后奔溃故障(已解决)_第15张图片

但是在使用降级命令时,报错了,关闭docker服务时,还是报错了。

2023.6.8-TS-yum update集群后奔溃故障(已解决)_第16张图片

最后,只能先卸载当前版本docker,再重新安装老版本docker:

yum remove -y dockerce*

2023.6.8-TS-yum update集群后奔溃故障(已解决)_第17张图片

2023.6.8-TS-yum update集群后奔溃故障(已解决)_第18张图片

测试,发现都是ok的:

image-20230609075510908

2023.6.8-TS-yum update集群后奔溃故障(已解决)_第19张图片

4、参考文章

https://www.xxapp.net/22171.html

2023.6.8-TS-yum update集群后奔溃故障(已解决)_第20张图片

5、总结

这幸好只是测试集群,可以进行随意测试,生产环境里特别要注意禁止使用yum update/upgrade命令!!!

你可能感兴趣的:(docker,运维,linux)