记一次k8s集群经常崩溃(azure)

描述:前一天晚上,开发在jenkins构建的时候说服务崩掉了,然后晚上重启了机器,发现又自动好了,没有在意,第二天,服务又蹦了,在azure上查看发现集群的node3莫名的连不上,然后又重启了node3机器,发现自动好了,然后不久又崩了,以为是node3机器出了问题,准备新建机器,并进行了一系列操作,最后发现,后端服务所占资源过大,服务器资源不够用;最后解决,扩大了集群的配置;
有关操作:
新的机器基础环境操作与安装(hosts配置、防火墙、内核、统一时间、docker),

由于集群是使用RKE安装的,新的机器加入集群(修改cluster.yml),现在的rancher界面已经不支持添加机器了:
记一次k8s集群经常崩溃(azure)_第1张图片
执行: ./rke up --update-only

集群删除旧机器,(修改cluster.yml),删除掉对应的配置,并执行 ./rke up --update-only,或者kubectl delete node nodename;

查看集群所用资源:
记一次k8s集群经常崩溃(azure)_第2张图片
修改服务资源限制:
记一次k8s集群经常崩溃(azure)_第3张图片
之前的限制配置为 cpu 250m,memory 1024Mi;

修改存活探针检测:

修改deploy.yaml文件
在这里插入图片描述
记一次k8s集群经常崩溃(azure)_第4张图片
之前的配置为240;

你可能感兴趣的:(k8s)