一文学会容器云平台稳定性建设

一、概述

本文从实战的角度,复盘故障并开始云平台稳定性建设。

二、k8s控制面稳定性建设

1.稳定性改进措施

从监控告警体系、部署架构和业务整改等三个维度进行k8s控制面稳定性建设:


k8s控制面稳定性建设

2.apiserver稳定性建设

apiserver稳定性建设

3.etcd稳定性建设

etcd稳定性建设

4.kube-controller-manager稳定性建设

controller稳定性建设

三、宿主机巡检

1.宿主机故障

  • 硬件故障(cpu/内存/磁盘/网络......)
  • 组件故障(docker/calico/kubelet......)

2.热点宿主机

  • cpu
  • load


    浴盆曲线

2.监控告警维护

从故障发现、故障上报、故障自愈、故障自动化处理、故障手动处理等步骤逐级上升处理:

  • 检测kubelet是否存活
  • 检测dockerd是否存活
  • 检测calico agent是否存活
  • 检测容器占用磁盘>90%
  • 检测可用内存<20%
  • 检测load > 60
  • 分析dmesg和kmesg日志,提前发现硬件故障

3.热点宿主机治理

  • 调度策略
    集中调度,减少资源碎片
    基于真实负载进行调度
  • 重调度
    cpu
    load
  • 监控告警
    人工审计
    一键打散

4.异常pod巡检

  • 基于kube-state-metrics
  • 基于namespace维度监控告警
    Pending
    Terminating
    ImageError

四、网络可观测性建设

1.监控维度

监控维度

2.宿主机网络精细化监控

宿主机网络精细化监控

3.同宿主机实例聚合监控

同宿主机实例聚合监控

五、镜像管理

1.现状

现状

2.ceph性能提升

ceph性能提升

3.镜像分层

镜像分层

你可能感兴趣的:(一文学会容器云平台稳定性建设)