kubernetes新版本使用kubeadm init的超全问题解决和建议

这一篇能节省你在 kubeadm init 时遇到问题的排错时间⌚️。

整合了网上大佬的方案‍♂️和官方建议⚠️。

个人被这个问题折磨了好久,希望总结出来能帮助到大家~

目录

自定义配置文件初始化的建议

关注配置: 

advertiseAddress

imageRepository

nodeRegistration.criSocket

问题解决this version of kubeadm only supports deploying clusters with the control plane version >= 1.26.3. Current version: v1.22

问题解决failed to pull image registry.k8s.io/kube-apiserver:v1.26.3

问题解决container runtime is not running

问题解决 error execution phase preflight: [preflight] Some fatal errors occurred: [ERROR Port-6443]

问题解决[kubelet-check] Initial timeout of 40s passed

        参考资料:

        总结

自定义配置文件初始化的建议

生成当前版本的初始化配置文件到 /etc/kubernetes 目录下

kubeadm config print init-defaults > /etc/kubernetes/init-default.yaml

关注配置: 

advertiseAddress

指定kube-apiserver广播给其他组件的IP地址。

这个参数需要设置为主节点的IP地址,以确保其他节点可以访问到kube-apiserver

即:advertiseAddress: 1.2.3.4 -> advertiseAddress: [宿主机ip(内网)]

imageRepository

指定安装镜像的仓库源

建议使用国内镜像如阿里云-> imageRepository: registry.aliyuncs.com/google_containers

可以通过ping仓库源看看宿主机能否正常访问

nodeRegistration.criSocket

高版本(k8s 1.24+)使用非默认(containerd)容器运行时要修改socket位置

低版本无需关注

官网:Container Runtimes | Kubernetes

nodeRegistration:
  criSocket: [Path to Unix domain socket]

不同运行时默认到Unix域套接字的路径
containerd    unix:///var/run/containerd/containerd.sock
CRI-O    unix:///var/run/crio/crio.sock
Docker Engine (using cri-dockerd)    unix:///var/run/cri-dockerd.sock

this version of kubeadm only supports deploying clusters with the control plane version >= 1.26.3. Current version: v1.22

初始化时指定的版本跟安装的版本不一致

# kubeadm version 查看的版本为1.26.3,
kubeadm version
# kubeadm init 指定的kubernetes版本为不兼容版本
kubeadm init --kubernetes-version=1.22

这个很好解决,卸载安装的高版本或者指定版本为兼容版本

官网版本支持:

Version Skew Policy | Kubernetes

参考上文提到的初始化出来的配置文件对应版本也很有

跟这个类似还有一个 apiKeys不兼容问题,也直接参考初始化出来的配置文件的apiKeys。

failed to pull image registry.k8s.io/kube-apiserver:v1.26.3

问题:

拉取registry.k8s.io仓库的镜像源失败

解决:

配置国内镜像源

配置文件修改:

  • imageRepository: registry.k8s.io -> imageRepository: registry.aliyuncs.com/google_containers

启动命令加上:

 --image-repository=registry.aliyuncs.com/google_containers

container runtime is not running

这个问题导致的原因有很多

参考我的这一篇文章,有超级详细的排查流程:【(Kubernetes)1.26.3+containerd/1.20.x + docker:container runtime is not running问题详细排查】_mikasa_akm的博客-CSDN博客

error execution phase preflight: [preflight] Some fatal errors occurred: [ERROR Port-6443]:

问题:

kubeadm init初始化集群操作失败的环境和配置遗留

解决:

重置节点:kubeadm reset

[kubelet-check] Initial timeout of 40s passed

详细错误信息参考

[wait-control-plane] Waiting for the kubelet to boot up the control plane as static Pods from directory “/etc/kubernetes/manifests”. This can take up to 4m0s
[kubelet-check] Initial timeout of 40s passed.

Unfortunately, an error has occurred:
timed out waiting for the condition

This error is likely caused by:
- The kubelet is not running
- The kubelet is unhealthy due to a misconfiguration of the node in some way (required cgroups disabled)

首先建议查看日志:

journalctl -xeu kubelet

每行都扫一眼:留意 err、failed、cannot connet 等关键字获取有用信息进行问题定位

常见问题:

advertiseAddress IP 配置有误

首先将 advertiseAddress指定为你宿主机的内网ip进行排查

如果换成内网IP可以成功则进行下一步:

        1.先查看当前服务器公网IP是否可达(有些云服务器没有公网ip的)

        2.如果公网可达但因为换成了公网导致初始化失败

公网IP可达但初始化仍然失败则:

        查看 kubeadm 生成的 etcd 配置文件:cat /etc/kubernetes/manifests/etcd.yaml

        关注--listen-peer-urls和--listen-client-urls后的地址是否正确

        --listen-peer-urls etcd节点监听对等节点请求的URL地址列表。

   --listen-client-urls 是 etcd 服务监听客户端请求的地址。

默认情况下,--listen-client-urlshttp://localhost:2379,只监听本地回环地址,不允许远程连接。为了在集群外访问 etcd,需要修改这个参数。常见的设置是使用内部 IP 地址或者主机名(检查这个是不是被换成你的公网ip了,如果是则修改)

Failed to create sandbox for pod :拉取 registry.k8s.io/pause:3.6 镜像失败

journalctl -xeu kubelet查看的日志报错信息

Failed to create sandbox for pod” 
err="rpc error: code = Unknown desc = 
failed to get sandbox image “registry.k8s.io/pause:3.6”: 
failed to pull image “registry.k8s.io/pause:3.6

问题:

拉取 registry.k8s.io/pause:3.6 镜像失败 导致sandbox 创建不了而报错 

解决

重新配置 sandbox 镜像 仓库,将默认的 registry.k8s.io/pause:3.6 修改成 “k8simage/pause:3.6”

### 生成 containerd 的默认配置文件
containerd config default > /etc/containerd/config.toml 
### 查看 sandbox 的默认镜像仓库在文件中的第几行 
cat /etc/containerd/config.toml | grep -n "sandbox_image"  
### 使用 vim 编辑器 定位到 sandbox_image,将 仓库地址修改成 k8simage/pause:3.6
vim /etc/containerd/config.toml  
sandbox_image = "k8simage/pause:3.6"  
### 重启 containerd 服务  
systemctl daemon-reload  
systemctl restart containerd.service 

参考:

Creating a cluster with kubeadm | Kubernetes

Kubernetes 入门 篇 Master 节点的安装与部署_Robpubking的博客-CSDN博客

解决阿里云ECS下kubeadm部署k8s无法指定公网IP - osc_tc7vil4d的个人空间 - OSCHINA - 中文开源技术交流社区

kubeadm init初始化k8s集群时报错,[kubelet-check] Initial timeout of 40s passed._k8s集群初始化失败_「已注销」的博客-CSDN博客

总结

真的使用新版本超级超级麻烦,不停试错,找论坛,查文档。弄了几天时间才把问题解决 kubeadm init的的问题,长路漫漫,后续还有很长的路要走!

建议就是要

  • 优先考虑 机器适配和版本兼容问题
  • 优先考虑 网络问题:宿主机能否ping通所需镜像包的镜像仓库
  • 多看官方文档!英语不好就翻译

这篇文章希望能帮到大家,有问题欢迎大家评论区一起讨论一起解决!

你可能感兴趣的:(linux,运维,服务器,kubernetes)