k8s_node节点得pod频繁重启排查原因

一、背景

最近flink在执行任务时频繁报错,提示连接taskmanager超时,在flink任务报错5-6次后,该任务变以faled状态结束,导致我们得数据没有进行实时传输

二、问题排查

通过查看flink job-mangager和task-manager日志查看返现刚刚启动没有久得flink任务存在连接taskmanager超时问题,观察flink得task-manager得pod状态,确实是刚刚启动几十分钟,为什么taskmanager会发生重启呢,而其他的taskmanager均在正常运行使用kubectl get pod -o wide -n ns| grep flink发现重启的task-manager均在同一节点,于是便怀疑这台节点有问题。
首先查看node状态,正常OK
再查看组件运行状态,kubelete、flanneld、kube-proxy等,OK没有重启现象
既然k8s集群没问题,那么就是网络有问题,仔细排查,发现到网关也正常,通过命令ifconfig发现很重要的问题
k8s_node节点得pod频繁重启排查原因_第1张图片
这个bond0网卡有个dropped 6但是其他机器都是0,于是上网查了以下发现:TX dropped “发送时,丢弃的数据包数“。
这样原因就找到了,既然是网络问题,那就从网络排查,因为是bond模式所以不应该存在底层网络链接的问题,那就只能是Bond模式有问题了。
使用命令查看:cat /proc/net/bonding/bond0
k8s_node节点得pod频繁重启排查原因_第2张图片
哦豁、问题出来了,配置的bond1模式没有生效,因为网络那边的人说,交换机只识别bond1模式,具体不清楚,查看Bond配置没问题,那就使用命令:modprobe -r bonding使bond1模式生效。然后重启网卡,成功改为bond1模式,至此没有丢包现象,观察一天后,taskmanager正常运行,问题圆满解决。

你可能感兴趣的:(linux,centos,flink,kubernetes)