这一篇能节省你在 kubeadm init 时遇到问题的排错时间⌚️。
整合了网上大佬的方案♂️和官方建议⚠️。
个人被这个问题折磨了好久,希望总结出来能帮助到大家~
目录
自定义配置文件初始化的建议
关注配置:
advertiseAddress
imageRepository
nodeRegistration.criSocket
问题解决:this version of kubeadm only supports deploying clusters with the control plane version >= 1.26.3. Current version: v1.22
问题解决:failed to pull image registry.k8s.io/kube-apiserver:v1.26.3
问题解决:container runtime is not running
问题解决: error execution phase preflight: [preflight] Some fatal errors occurred: [ERROR Port-6443]
问题解决:[kubelet-check] Initial timeout of 40s passed
参考资料:
总结
生成当前版本的初始化配置文件到 /etc/kubernetes 目录下
kubeadm config print init-defaults > /etc/kubernetes/init-default.yaml
指定kube-apiserver广播给其他组件的IP地址。
这个参数需要设置为主节点的IP地址,以确保其他节点可以访问到kube-apiserver
即:advertiseAddress: 1.2.3.4 -> advertiseAddress: [宿主机ip(内网)]
指定安装镜像的仓库源
建议使用国内镜像如阿里云-> imageRepository: registry.aliyuncs.com/google_containers
可以通过ping仓库源看看宿主机能否正常访问
高版本(k8s 1.24+)使用非默认(containerd)容器运行时要修改socket位置
低版本无需关注
官网:Container Runtimes | Kubernetes
nodeRegistration:
criSocket: [Path to Unix domain socket]不同运行时默认到Unix域套接字的路径
containerd unix:///var/run/containerd/containerd.sock
CRI-O unix:///var/run/crio/crio.sock
Docker Engine (using cri-dockerd) unix:///var/run/cri-dockerd.sock
初始化时指定的版本跟安装的版本不一致
# kubeadm version 查看的版本为1.26.3,
kubeadm version
# kubeadm init 指定的kubernetes版本为不兼容版本
kubeadm init --kubernetes-version=1.22
这个很好解决,卸载安装的高版本或者指定版本为兼容版本
官网版本支持:
Version Skew Policy | Kubernetes
参考上文提到的初始化出来的配置文件对应版本也很有
跟这个类似还有一个 apiKeys不兼容问题,也直接参考初始化出来的配置文件的apiKeys。
拉取registry.k8s.io仓库的镜像源失败
配置国内镜像源
imageRepository: registry.k8s.io -> imageRepository: registry.aliyuncs.com/google_containers
--image-repository=registry.aliyuncs.com/google_containers
这个问题导致的原因有很多
参考我的这一篇文章,有超级详细的排查流程:【(Kubernetes)1.26.3+containerd/1.20.x + docker:container runtime is not running问题详细排查】_mikasa_akm的博客-CSDN博客
问题:
kubeadm init
初始化集群操作失败的环境和配置遗留
重置节点:kubeadm reset
详细错误信息参考
[wait-control-plane] Waiting for the kubelet to boot up the control plane as static Pods from directory “/etc/kubernetes/manifests”. This can take up to 4m0s
[kubelet-check] Initial timeout of 40s passed.Unfortunately, an error has occurred:
timed out waiting for the conditionThis error is likely caused by:
- The kubelet is not running
- The kubelet is unhealthy due to a misconfiguration of the node in some way (required cgroups disabled)
journalctl -xeu kubelet
每行都扫一眼:留意 err、failed、cannot connet 等关键字获取有用信息进行问题定位。
首先将 advertiseAddress指定为你宿主机的内网ip进行排查
如果换成内网IP可以成功则进行下一步:
1.先查看当前服务器公网IP是否可达(有些云服务器没有公网ip的)
2.如果公网可达但因为换成了公网导致初始化失败
公网IP可达但初始化仍然失败则:
查看 kubeadm 生成的 etcd 配置文件:cat /etc/kubernetes/manifests/etcd.yaml
关注--listen-peer-urls和--listen-client-urls后的地址是否正确
--listen-peer-urls
是etcd
节点监听对等节点请求的URL地址列表。
--listen-client-urls
是 etcd 服务监听客户端请求的地址。默认情况下,
--listen-client-urls
是http://localhost:2379
,只监听本地回环地址,不允许远程连接。为了在集群外访问 etcd,需要修改这个参数。常见的设置是使用内部 IP 地址或者主机名(检查这个是不是被换成你的公网ip了,如果是则修改)
journalctl -xeu kubelet查看的日志报错信息
Failed to create sandbox for pod”
err="rpc error: code = Unknown desc =
failed to get sandbox image “registry.k8s.io/pause:3.6”:
failed to pull image “registry.k8s.io/pause:3.6
问题:
拉取 registry.k8s.io/pause:3.6 镜像失败 导致sandbox 创建不了而报错
解决:
重新配置 sandbox 镜像 仓库,将默认的 registry.k8s.io/pause:3.6 修改成 “k8simage/pause:3.6”
### 生成 containerd 的默认配置文件
containerd config default > /etc/containerd/config.toml
### 查看 sandbox 的默认镜像仓库在文件中的第几行
cat /etc/containerd/config.toml | grep -n "sandbox_image"
### 使用 vim 编辑器 定位到 sandbox_image,将 仓库地址修改成 k8simage/pause:3.6
vim /etc/containerd/config.toml
sandbox_image = "k8simage/pause:3.6"
### 重启 containerd 服务
systemctl daemon-reload
systemctl restart containerd.service
Creating a cluster with kubeadm | Kubernetes
Kubernetes 入门 篇 Master 节点的安装与部署_Robpubking的博客-CSDN博客
解决阿里云ECS下kubeadm部署k8s无法指定公网IP - osc_tc7vil4d的个人空间 - OSCHINA - 中文开源技术交流社区
kubeadm init初始化k8s集群时报错,[kubelet-check] Initial timeout of 40s passed._k8s集群初始化失败_「已注销」的博客-CSDN博客
真的使用新版本超级超级麻烦,不停试错,找论坛,查文档。弄了几天时间才把问题解决 kubeadm init的的问题,长路漫漫,后续还有很长的路要走!
建议就是要
这篇文章希望能帮到大家,有问题欢迎大家评论区一起讨论一起解决!