排查Pod卡在Terminating状态

概述

pod已经被删除,并且卡在Terminated状态较长时间,可能是因为:

  • pod含有预期有关联的finalizer并且没有完成
  • pod没有相应终止信号

排查手册

这个手册用于排查pod已经被删除,但长时间卡在Terminate状态,或者长于自己期望的时间。
当运行命令kubect get pods,你可以看到关于pod的输出:

NAME                     READY     STATUS             RESTARTS   AGE
nginx-7ef9efa7cd-qasd2   1/1       Terminating        0          1h

初始步骤概述

1.收集信息
2.检查finalizers
3.检查节点状态
4.强制删除

详细步骤

1)收集信息

kubectl get pod -n [NAMESPACE] -p [POD_NAME] -o yaml

2)检查finalizers

首先检查一下是否有finalizers,如果有可能是无法完成的根本原因。
获取pod配置:

kubectl get pod -n [NAMESPACE] -p [POD_NAME] -o yaml > /tmp/runbooks_pod_configuration.txt

并且检查metadata下面有finalizers,如果有则跳到 方案A)。

3)检查节点的状态信息

pod可能运行在因为某种原因发生故障的节点。
如果从/tmp/runbooks_pod_configuration.txt文件里面所指定的节点上所有的pod都卡在Terminated状态,那么极有可能是因为node节点故障导致的,可以通过运行命令检查:

kubectl get node [nodename]

4)删除pod

由于没有想用终止信号,pod可能不会终止,具体原因可能取决于程序的具体情况,常见原因可能包含:

  • 用户控件代码紧密循环,不允许出现中断信号。
  • 运行程序维护过程,例如:垃圾回收
    这种情况可以跳转到 方案B

5)重启kubelet

如果没有其他效果,可以尝试在pod所在的节点上重启kubelet,查看 方案C

解决方案

A) 删除finalizer
B) 强制删除pod
C) 重启kubelet

解决方案详细信息

A) 删除finalizers

删除pod的finalizers,运行命令:

kubectl patch pod [POD_NAME] -p '{"metadata":{"finalizers":null}}'

B) 强制删除pod

请注意,这是解决方法不是解决方案,请谨慎行事确保问题不会进一步恶化。另外请参与Statefulset有关的详细信息。
强制删除运行命令:

kubectl delete pod --grace-period=0 --force --namespace [NAMESPACE] [POD_NAME]

如果不生效,请重新参照排查手册,检查一下解决思路。

C) 重启kubelet

如果可以,SSH登陆到节点上重启kubelet进程,重启之前可以检查kubelet的日志是否有异常信息。

检查是否解决

如果kubectl get pod没有显示pod存在那么问题就得到了解决:

kubectl get pod

进一步步骤

如果问题进一步出现,你可能需要:

  • 检查终结器是否仍然需要完成
  • 找到根本原因

检查终结器是否仍然需要完成

根据终结器需要完成的工作有所不同。
终结器未完成的常见情况包括

  • Volume

2)确定根本原因

这将根据终结器的操作有所不同,并且需要特定的上下文知识。
可以检查kubelet的日志,可能会包含一些有用的信息。

更多信息

Finalizers
Container Lifecycle Hooks
Termination of Pods
Unofficial Kubernetes Pod Termination
Kubelet logs
原文:https://containersolutions.github.io/runbooks/posts/kubernetes/pod-stuck-in-terminating-state/#detailed-step-2

你可能感兴趣的:(排查Pod卡在Terminating状态)