原地升级Docker和Containerd

问题标题pod在重新部署后,一直卡在containercreatin案例严重性--工单编号7KDA28F工单类型普通工单

提交帐号******提交时间2021-05-13 09:45:16状态待您反馈确认结单一键升级

沟通记录

2021-05-13 09:45:17    ******

pod在重新部署后,一直卡在containercreating。

Deployment删除后重新部署,可以启动容器。

但是第二次部署后,仍然卡在containercreating

2021-05-13 09:45:52    ******

附件

售后工程师:    2021-05-13 09:49:16

您好,我们已经收到您提交的问题,正在为您查看,请稍等

售后工程师:    2021-05-13 09:49:25

您好,您的问题正在处理中,请您不要关闭工单,有任何进展会第一时间为您同步,感谢您的耐心等待。

2021-05-13 09:49:25    ******

并且集群检查时,提示Metric Server组件版本过低,异常影响可能导致集群功能异常。但是升级失败

售后工程师:    2021-05-13 09:53:39

给一下公网的kubeconfig,我看看

2021-05-13 09:58:07    ******

如下

  附件

售后工程师:    2021-05-13 10:02:58

cn-hangzhou.192.168.0.252  这个节点授权给我一下

售后工程师:    2021-05-13 10:03:02

【注意】根据目前情况,阿里云需要登录您服务器进行排查。在排查之前,建议您在阿里云控制台创建快照,备份数据,以保护您数据安全。

1.VNC登录  授权阿里云对实例进行VNC登录操作

【ECS】您通过工单页面点击确认授权,即表示您授予阿里云上述操作权限并接受上述全部约定。如果您同意向阿里云提供系统管理员密码或管理终端密码,在问题处理完毕后,请您务必及时修改密码。同时提醒您在阿里云排查期间尽量不要对实例进行其它操作。

2021-05-13 10:08:00    ******

尊敬的用户,您好!

您的授权申请单(ID:5P7HTW),已授权成功,授权项目:

1.VNC登录  授权阿里云对实例进行VNC登录操作

问题处理完成后,会自动取消授权;如有问题,请随时联系我们;

2021-05-13 10:09:23    ******

cn-hangzhou.192.168.0.252的实例id是

i-bp1b2jpvwm1p

售后工程师:    2021-05-13 10:41:55

systemd和containerd的版本都低了

您那边检查一下其他节点的版本,如果也低了,都升级一下

原地升级Docker和Containerd:

1. 保证集群k8s版本在 1.12 以上

2. 使用 kubectl drain 排水掉目前需要升级的节点

3. systemctl stop kubelet 停止掉节点的kubelet服务

4. systemctl stop docker && systemctl stop containerd 停止掉节点的docker服务

5. 安装最新的containerd和docker的rpm包:

yum install -y https://acs-public-mirror.oss-cn-hangzhou.aliyuncs.com/docker-engine/daemon-build/centos/docker-ce-19.03.5-4.el7.x86_64.rpm https://acs-public-mirror.oss-cn-hangzhou.aliyuncs.com/docker-engine/daemon-build/centos/docker-ce-cli-19.03.5-4.el7.x86_64.rpm https://acs-public-mirror.oss-cn-hangzhou.aliyuncs.com/docker-engine/daemon-build/centos/containerd.io-1.2.10-3.2.el7.x86_64.rpm

原地升级系统组件:

systemd: (rpm -qa | grep systemd, 版本<219-67.el7需要升级)

6. 升级systemd: yum update -y systemd && systemctl daemon-reexec && killall runc

7. yum update systemd 

8. systemctl daemon-reexec 

建议您创建下快照备份,然后升级containerd

9. wget  https://download.docker.com/linux/centos/7/x86_64/stable/Packages/containerd.io-1.2.10-3.2.el7.x86_64.rpm 

10. 查看版本:rpm -qa | grep -E "systemd|container"

[root@ ~]# rpm -qa | grep -E "systemd|container"

systemd-libs-219-78.el7_9.3.x86_64

container-selinux-2.99-1.el7_6.noarch

systemd-219-78.el7_9.3.x86_64

containerd.io-1.2.10-3.2.el7.x86_64

systemd-sysv-219-78.el7_9.3.x86_64

2021-05-13 10:48:38    ******

这个是容器无法启动的原因还是Metric Server组件升级失败的原因?

2021-05-13 10:49:27    ******

如果是容器启动失败卡在containercreating的原因,那么为什么我删除Deployment之后重新部署就可以启动?

售后工程师:    2021-05-13 11:13:55

从事件上看,已经调度到这个节点了,但是没有进一步的行为了。正常流程下一步是调用containerd创建容器,但是这一步卡主了,节点的kubelet和containerd也没有响应的日志,只能怀疑是containerd的版本问题,而且您的这个版本过低了,建议升级一下看看

2021-05-13 11:16:00    ******

这个升级的是k8s的组件还是ecs的?

2021-05-13 11:18:50    ******

而且节点排空不了,一直是terminating。选择移除节点也不行

2021-05-13 11:21:11    ******

不排空的话,能否进linux直接升级?

售后工程师:    2021-05-13 11:21:52

是ecs上的服务

【而且节点排空不了,一直是terminating。选择移除节点也不行】这个看一下新pod是否在其他节点上有创建出来?

【不排空的话,能否进linux直接升级?】也可以,业务会中断

2021-05-13 11:24:01    ******

那我直接升级吧

2021-05-13 11:37:54    ******

这样是升级好了吗

2021-05-13 11:39:05    ******

节点状态现在是未知

售后工程师:    2021-05-13 11:42:18

是的,已经升级了。重启一下节点试试看

2021-05-13 12:09:37    ******

有一台好像升级失败了,帮忙看下

售后工程师:    2021-05-13 12:27:30

其他的都成功了没有?节点状态都running了吗?

2021-05-13 12:28:57    ******

其他的都成功了

所有的节点,包括这一台,状态都running

售后工程师:    2021-05-13 12:30:58

您截图的这个版本没有问题的,再创建deployment看看是否能成功创建pod

2021-05-13 12:32:35    ******

能成功创建。然后我还有另外一个集群,版本发您看下,看是否需要升级。

如图:

售后工程师:    2021-05-13 12:33:49

需要,也升级一下

2021-05-13 12:34:55    ******

同样的操作方式和步骤吧?

另外,还有哪些需要做升级的,我该如何检查

售后工程师:    2021-05-13 13:08:54

是的,升级步骤一样的。

服务方便暂时升级这些就行。

你可能感兴趣的:(原地升级Docker和Containerd)