k8s故障修复:部分服务无法通过k8s集群宿主机ip+NodePort访问

目录

1.版本信息

2.前提&场景描述

3.排查步骤

1.kubectl get pod -n xxxx查看相关服务的pod是否正常

2.排查端口是否可以正常连接(建议多试几个节点ip)

3.重启k8s集群的flannel组件容器(所有节点)

4.检查各节点ip+Nodeport是否能访问服务

5.通知产品检查服务是否正常


1.版本信息

k8s版本:v1.18.3

docker版本:19.03.8

2.前提&场景描述

k8s集群的master节点可以ping通,但无法通过ssh连接。进入物理机后台查看,服务器卡死只能重启。重启后产品人员反馈部分服务无法正常访问。

经核实:前端界面可以访问,但是与后端交互在控制台看到处于Pending状态

3.排查步骤

1.kubectl get pod -n xxxx查看相关服务的pod是否正常

k8s故障修复:部分服务无法通过k8s集群宿主机ip+NodePort访问_第1张图片

2.排查端口是否可以正常连接(建议多试几个节点ip)

telnnet 192.168.xxx.1  15672

telnnet 192.168.xxx.2  15672

 telnnet 192.168.xxx.3  15672

.......

发现部分服务器网络是通的,部分则无法连接。在另外尝试其他服务端口后,发现网络不通的情况不规则分布在不同服务上的。

比如服务器1-3能telnet 1234端口,服务器4不能。服务2-4能telnet 5678端口,但是服务器1不能。

3.重启k8s集群的flannel组件容器(所有节点)

kubectl delete pod -n kube-system kube-flannel-xxxx --force

kubectl delete pod -n kube-system kube-flannel-xxxx --force

......

4.检查各节点ip+Nodeport是否能访问服务

5.通知产品检查服务是否正常

你可能感兴趣的:(故障修复,kubernetes,docker,容器)