记一次openshift origin-node启动报错

记一次openshift证书问题(origin-node因证书未自动更新,启动失败,导致集群服务不正常)

1、事件简述:某天访问公司openshift3.10集群上部署应用时访问报错app unavailable,于是去访问上面其他应用,一样的错误,登录openhsift集群后台执行

oc get node 发现所有node节点处于not ready状态,

tail -f /var/log/message 发现报错origin-node.service启动失败

systemctl restart origin-node 重启报错

journalctl -xe -l 根据下图可以看到证书文件过期
记一次openshift origin-node启动报错_第1张图片

查看上面图片中的/etc/origin/node/certificates下的pem文件,符合上图的过期时间(后续问了大神,改文件一般是到期自动更新,不知道为什么这次没自动更新)
检查pem证书文件到期时间

openssl x509 -in  kubelet-client-current.pem  -noout -dates 
notBefore=Jan  4 06:53:00 2020 GMT
notAfter=Jan  3 06:53:00 2021 GMT

生成新的pem文件

master节点
$oc serviceaccounts create-kubeconfig node-bootstrapper -n openshift-infra --config /etc/origin/master/admin.kubeconfig > ~/bootstrap.kubeconfig
$cp /etc/origin/master/admin.kubeconfig /etc/origin/node/bootstrap.kubeconfig
$mv /etc/origin/node/client-ca.crt{,.old}
$mv /etc/origin/node/node.kubeconfig{,.old}
$rm -rf /etc/origin/node/certificates
$systemctl restart origin-node

node节点:
将master节点上面的 /etc/origin/node/bootstrap.kubeconfig文件拷贝到node节点上的相同路径即可
systemctl restart origin-node

你可能感兴趣的:(openshift,运维)