18.云原生可观测性之kubesphere监控报警系统使用实战

云原生专栏大纲

文章目录

  • kubesphere监控报警系统介绍
  • 监控功能与使用
    • 监控系统介绍
    • 集群状态监控
      • 物理资源监控
        • 集群资源
        • 节点资源
      • Kubernetes核心组件监控
        • API Server监控
        • Scheduler监控
    • 应用资源监控
      • 集群层级
        • 项目与应用资源统计
        • 用量排行
      • 企业空间层级
        • 项目层级
        • 工作负载层级
          • 容器组层级
          • 容器层级
  • 基于租户的告警与通知
    • 告警功能介绍
    • 集群告警
      • 内置告警策咯
        • 物理资源(cpu/内存/存储)
        • 核心组件(k8s/etcd等)
      • 自定义规则配置策咯
        • 规则模板创建自定义规则
        • 自定义规则
    • 应用告警
  • KubeSphere 自定义监控面板
    • 自定义监控
      • 数据模型
      • 自定义监控面板
    • 导入Grafana监控模板
    • 使用自定义监控面板监控GPU

kubesphere监控报警系统介绍

告警是可观测性的重要组成部分,与监控和日志密切相关。KubeSphere 中的告警系统与其主动式故障通知 (Proactive Failure Notification) 系统相结合,使用户可以基于告警策略了解感兴趣的活动。当达到某个指标的预定义阈值时,会向预先配置的收件人发出告警。因此,您需要预先配置通知方式,包括邮件、Slack、钉钉、企业微信和 Webhook。有了功能强大的告警和通知系统,您就可以迅速发现并提前解决潜在问题,避免您的业务受影响。

监控功能与使用

监控系统介绍

• 基于Prometheus生态
• 多租户隔离
• 多维度监控
• 全面丰富的指标
• 灵活多样的展现方式

集群状态监控

集群状态监控
18.云原生可观测性之kubesphere监控报警系统使用实战_第1张图片

物理资源监控

集群资源

18.云原生可观测性之kubesphere监控报警系统使用实战_第2张图片

节点资源

18.云原生可观测性之kubesphere监控报警系统使用实战_第3张图片

Kubernetes核心组件监控

API Server监控

18.云原生可观测性之kubesphere监控报警系统使用实战_第4张图片

Scheduler监控

18.云原生可观测性之kubesphere监控报警系统使用实战_第5张图片

应用资源监控

应用资源监控

  • 管理员视角
    • 集群层级
      • 项目与应用资源统计
      • 用量排行
  • 普通用户视角
    • 企业空间层级
    • 项目层级
    • 工作负载层级
      • 容器组层级
      • 容器层级

集群层级

项目与应用资源统计

18.云原生可观测性之kubesphere监控报警系统使用实战_第6张图片

用量排行

18.云原生可观测性之kubesphere监控报警系统使用实战_第7张图片

企业空间层级

18.云原生可观测性之kubesphere监控报警系统使用实战_第8张图片

项目层级

18.云原生可观测性之kubesphere监控报警系统使用实战_第9张图片

工作负载层级

18.云原生可观测性之kubesphere监控报警系统使用实战_第10张图片

该工作负载包括3个容器组

18.云原生可观测性之kubesphere监控报警系统使用实战_第11张图片

容器组层级

18.云原生可观测性之kubesphere监控报警系统使用实战_第12张图片

容器层级

18.云原生可观测性之kubesphere监控报警系统使用实战_第13张图片
18.云原生可观测性之kubesphere监控报警系统使用实战_第14张图片

基于租户的告警与通知

告警功能介绍

  • 兼容Prometheus规则(KubeSphere3.1开始)
  • 多租户支持
  • 内置平台告警策略
  • 规则配置方式

集群告警

内置告警策咯

告警策略入口
18.云原生可观测性之kubesphere监控报警系统使用实战_第15张图片

物理资源(cpu/内存/存储)
  1. cpu告警策略

18.云原生可观测性之kubesphere监控报警系统使用实战_第16张图片

  1. 内存告警策略

18.云原生可观测性之kubesphere监控报警系统使用实战_第17张图片

  1. 节点文件系统告警策略

18.云原生可观测性之kubesphere监控报警系统使用实战_第18张图片

  1. volume pv持久卷告警策略

18.云原生可观测性之kubesphere监控报警系统使用实战_第19张图片

核心组件(k8s/etcd等)

18.云原生可观测性之kubesphere监控报警系统使用实战_第20张图片

自定义规则配置策咯

  1. 自定义规则配置入口

18.云原生可观测性之kubesphere监控报警系统使用实战_第21张图片

规则模板创建自定义规则

节点(cpu/内存/磁盘/网络/容器组利用率)

  1. 自定义节点cpu过高报警策略

18.云原生可观测性之kubesphere监控报警系统使用实战_第22张图片

  1. 设置报警阈值

18.云原生可观测性之kubesphere监控报警系统使用实战_第23张图片

  1. 报警消息设置

18.云原生可观测性之kubesphere监控报警系统使用实战_第24张图片

  1. 查看自定义告警策略详情

18.云原生可观测性之kubesphere监控报警系统使用实战_第25张图片
等待1分钟触发报警:
18.云原生可观测性之kubesphere监控报警系统使用实战_第26张图片
18.云原生可观测性之kubesphere监控报警系统使用实战_第27张图片

  1. 添加钉钉群机器人

18.云原生可观测性之kubesphere监控报警系统使用实战_第28张图片

  1. 重新编辑策略,等待1分钟查看钉钉群是否会接收到报警通知

18.云原生可观测性之kubesphere监控报警系统使用实战_第29张图片

自定义规则

通过已有指标配合PromQL自定义报警策略,Querying basics | Prometheus

# 不可用副本 / 期望副本 > 0.3
kube_deployment_status_replicas_unavailable / kube_deployment_spec_replicas > 0.3

18.云原生可观测性之kubesphere监控报警系统使用实战_第30张图片

应用告警

  • 规则模板配置策略 (cpu/内存/网络/副本不可用)
    • 部薯
    • 有状态副本集
    • 守护进程集
  • 自定义规则配置策略
  1. 进入企业空间项目下创建应用报警策略

18.云原生可观测性之kubesphere监控报警系统使用实战_第31张图片

  1. 填写策略基本信息

18.云原生可观测性之kubesphere监控报警系统使用实战_第32张图片

  1. 选择资源类型和报警规则

18.云原生可观测性之kubesphere监控报警系统使用实战_第33张图片

  1. 填写报警信息

18.云原生可观测性之kubesphere监控报警系统使用实战_第34张图片

  1. 查看钉钉群报警信息

18.云原生可观测性之kubesphere监控报警系统使用实战_第35张图片

KubeSphere 自定义监控面板

  • kubesphere 自定义监控
  • kubesphere 导入grafana监控模板
  • 使用自定义监控面板监控gpu

自定义监控

数据模型

https://github.com/kubesphere/monitoring-dashboard/tree/master/config/crd/bases

kubectl api-resources | grep dashboard

18.云原生可观测性之kubesphere监控报警系统使用实战_第36张图片

自定义监控面板

  1. 创建自定义监控面板

18.云原生可观测性之kubesphere监控报警系统使用实战_第37张图片

  1. 不适用模板可直接下一步

18.云原生可观测性之kubesphere监控报警系统使用实战_第38张图片

  1. 进入指定监控面板进行自定义
    18.云原生可观测性之kubesphere监控报警系统使用实战_第39张图片

导入Grafana监控模板

转化过程如下:
https://github.com/kubesphere/monitoring-dashboard#converter-tool
18.云原生可观测性之kubesphere监控报警系统使用实战_第40张图片

  1. 使用Grafana创建监控面板

18.云原生可观测性之kubesphere监控报警系统使用实战_第41张图片

  1. 上传Grafana监控面板模板

18.云原生可观测性之kubesphere监控报警系统使用实战_第42张图片

使用自定义监控面板监控GPU

  1. 使用GPU创建监控面板

18.云原生可观测性之kubesphere监控报警系统使用实战_第43张图片

  1. 创建后看见GPU监控

18.云原生可观测性之kubesphere监控报警系统使用实战_第44张图片

你可能感兴趣的:(私有云+云原生实战,云原生)