监控笔记

监控分类

  1. 系统
  2. 业务

监控方法

  1. 探针(probing)
  2. 内省(introspection)

监控指标

指标设计方法

  1. 从上到下,层层细分
  2. 从重要到次要,
  3. 业务指标不好确定,可以从用户感受深的接口开始

指标使用方法

  1. 平均数
  2. 中间值
  3. 百分位
  4. 标准差
  5. 聚合多个指标:当天、昨天;单机和集群

常用监控指标类型

  1. 系统监控:USEmethod
    1. 指标类型:
      1. 利用率
      2. 饱和度:排队数量,如内存、io,以及磁盘剩余容量
      3. 错误
    2. 监控对象
      1. cpu
      2. 内存
      3. io
      4. 虚拟内存
      5. 网卡
  2. 业务系统监控: 参照google的四个黄金指标(Site Reliability Engineering)
    1. 指标类型:
      1. 延迟
      2. 流量
      3. 饱和度
      4. 错误数

报警和通知

  1. 消息内容
    1. 清晰、准确、可操作性
    2. 包括其他上下文
  2. 通知策略
    1. 确定需要通知的问题
    2. 确定通知谁
    3. 确定通知方式
    4. 确定通知频率
    5. 确定报警升级策略

参照资料

  1. prometheus监控实战

你可能感兴趣的:(监控笔记)