关注【云原生百宝箱】公众号,快速掌握云原生
这篇文章是关于使用 Kubectl 进行 Kubernetes 诊断的指南。作者列出了 100 个 Kubectl 命令,这些命令对于诊断 Kubernetes 集群中的问题非常有用。这些问题包括但不限于:
- 集群信息
- Pod 诊断
- 服务诊断
- 部署诊断
- 网络诊断
- 持久卷和持久卷声明诊断
- 资源使用情况
- 安全和授权
- 节点故障排除
- 其他诊断命令:文章还提到了许多其他命令,如资源扩展和自动扩展、作业和定时作业诊断、Pod 亲和性和反亲和性规则、RBAC 和安全、服务账号诊断、节点排空和取消排空、资源清理等。
kubectl version
kubectl cluster-info
kubectl get nodes
kubectl describe node
kubectl get namespaces
kubectl get pods --all-namespaces
Pod 诊断:
kubectl get pods -n
kubectl describe pod -n
kubectl logs -n
kubectl logs -f -n
kubectl exec -it -n --
Pod 健康检查:
kubectl get pods -n -o jsonpath='{.status.conditions[?(@.type=="Ready")].status}'
kubectl get events -n --field-selector involvedObject.name=
Service诊断:
kubectl get svc -n
kubectl describe svc -n
Deployment诊断:
kubectl get deployments -n
kubectl describe deployment -n
kubectl rollout status deployment/ -n
kubectl rollout history deployment/ -n
StatefulSet诊断:
kubectl get statefulsets -n
kubectl describe statefulset -n
ConfigMap 和Secret诊断:
kubectl get configmaps -n
kubectl describe configmap -n
kubectl get secrets -n
kubectl describe secret -n
命名空间诊断:
kubectl describe namespace
资源使用情况:
kubectl top pod -n
kubectl top nodes
网络诊断:
kubectl get pods -n -o custom-columns=POD:metadata.name,IP:status.podIP --no-headers
kubectl get networkpolicies -n
kubectl describe networkpolicy -n
持久卷 (PV) 和持久卷声明 (PVC) 诊断:
kubectl get pv
kubectl describe pv
kubectl get pvc -n
kubectl describe pvc -n
kubectl get pods --field-selector spec.nodeName= -n
资源配额和限制:
kubectl get resourcequotas -n
kubectl describe resourcequota -n
自定义资源定义 (CRD) 诊断:
kubectl get -n
kubectl describe -n
使用这些命令时,请记住将
,
,
,
,
,
,
,
,
,
,
,
,
,
, 和替换为你的特定值。
这些命令应该可以帮助你诊断 Kubernetes 集群以及在其中运行的应用程序。
资源伸缩和自动伸缩
kubectl scale deployment --replicas= -n
kubectl autoscale deployment --min= --max= --cpu-percent= -n
kubectl get hpa -n
作业和 CronJob 诊断:
kubectl get jobs -n
kubectl describe job -n
kubectl get cronjobs -n
kubectl describe cronjob -n
容量诊断:
kubectl get pv --sort-by=.spec.capacity.storage
kubectl get pv -o=jsonpath='{.spec.persistentVolumeReclaimPolicy}'
kubectl get storageclasses
kubectl get ingress -n
kubectl describe ingress -n
kubectl get virtualservices -n
kubectl describe virtualservice -n
Pod 网络故障排除:
kubectl run -it --rm --restart=Never --image=busybox net-debug-pod -- /bin/sh
kubectl exec -it -n -- curl
kubectl exec -it -n -- traceroute
kubectl exec -it -n -- nslookup
配置和资源验证:
kubectl apply --dry-run=client -f
kubectl auth can-i list pods --as=system:serviceaccount::
RBAC 和安全性:
kubectl get roles,rolebindings -n
kubectl describe role -n
服务帐户诊断:
kubectl get serviceaccounts -n
kubectl describe serviceaccount -n
清空节点和解除封锁:
kubectl drain --ignore-daemonsets
kubectl uncordon
资源清理:
kubectl delete pod -n --grace-period=0 --force
Pod 亲和性和反亲和性:
kubectl get pod -n -o=jsonpath='{.spec.affinity}'
kubectl get pod -n -o=jsonpath='{.spec.affinity.podAntiAffinity}'
Pod 安全策略 (PSP):
kubectl get psp
事件:
kubectl get events --sort-by=.metadata.creationTimestamp
kubectl get events -n
节点故障排除:
kubectl describe node | grep Conditions -A5
kubectl describe node | grep -E "Capacity|Allocatable"
临时容器(Kubernetes 1.18+):
kubectl debug -it -n --image= -- /bin/sh
资源指标(需要指标服务器):
kubectl top pod -n
kuelet诊断:
kubectl logs -n kube-system kubelet-
使用Telepresence 进行高级调试:
telepresence --namespace --swap-deployment
Kubeconfig 和上下文:
kubectl config get-contexts
kubectl config use-context
Pod 安全标准(PodSecurity 准入控制器):
kubectl get psp -A | grep -vE 'NAME|REVIEWED'
Pod 中断预算 (PDB) 诊断:
kubectl get pdb -n
kubectl describe pdb -n
资源锁诊断(如果使用资源锁):
kubectl get resourcelocks -n
kubectl get endpoints -n
kubectl exec -it -n -- cat /etc/resolv.conf
自定义指标(Prometheus、Grafana):
kubectl port-forward
访问Prometheus和Grafana服务来查询自定义指标。Pod 优先级和抢占:
kubectl get priorityclasses
Pod 开销(Kubernetes 1.18+):
kubectl get pod -n -o=jsonpath='{.spec.overhead}'
存储卷快照诊断(如果使用存储卷快照):
kubectl get volumesnapshot -n
kubectl describe volumesnapshot -n
资源反序列化诊断:
kubectl get -n -o=json
节点污点:
kubectl describe node | grep Taints
更改和验证 Webhook 配置:
kubectl get mutatingwebhookconfigurations
kubectl get validatingwebhookconfigurations
Pod 网络策略:
kubectl get networkpolicies -n
节点条件(Kubernetes 1.17+):
kubectl get nodes -o custom-columns=NODE:.metadata.name,READY:.status.conditions[?(@.type=="Ready")].status -l 'node-role.kubernetes.io/worker='
审核日志:
节点操作系统详细信息:
kubectl get node -o jsonpath='{.status.nodeInfo.osImage}'
这些命令应该涵盖 Kubernetes 中的各种诊断场景。确保将
、
、
等占位符替换为你的集群和用例的实际值。