Monitor 监控方法

Monitor 监控方法

  • 黄金指标
  • RED 方法
  • USE 方法
  • 监控分类
    • 业务监控
    • 应用监控
    • 组件监控
    • 资源监控
      • 设备监控
      • 网络监控

方法论 : Google 的四个黄金指标、RED 方法、USE 方法

黄金指标

Google 的四个黄金指标 :

  • 延迟 : 服务请求所花费的时间,并区分成功和失败请求,如: 调用某接口,花 30 毫秒
  • 流量 : HTTP 服务 : 每秒 HTTP 请求数 ; RPC 服务 : 每秒 RPCCall 数 ; 数据库 : 每秒事务数
  • 错误 : 请求失败的速率 : 每秒请求失败数,如 : HTTP 请求返回 500 错误码; 返回的状态码 200,但内容不对
  • 饱和度 : 受限的资源,如 : CPU 密集型应用,监控 CPU 使用率作为饱和度指标

RED 方法

RED 方法 :

  • Rate:请求速率,每秒请求数
  • Errors:错误,每秒错误请求数
  • Duration:延迟,每个请求的延迟分布情况

USE 方法

USE :

  • 使用率 (Utilization) : 如 : 内存使用率、CPU 使用率
  • 饱和度 (Saturation) : 资源排队工作的指标,无法再处理额外的工作。如 : iostat 的队列长度 aqu-sz
  • 错误 (Error) : 资源错误事件的计数。如 : malloc() 失败次数、ifconfig 的 errors、dropped 包量。监控错误日志

监控分类

Monitor 监控方法_第1张图片

业务监控

业务监控指标的不同点 :

  • 对精确度要求低:只要发现趋势异常就可
  • 对实时性要求较高:BI 数据一般是小时或天级别的,越早发现越好

要对告警分级对待,告警核心指标

应用监控

应用监控 : 对应用程序 (Application) 监控

统一 APM(Application Performance Management , 应用性能管理方案) :

  • 指标 : 用埋点机制,如 : Prometheus
  • 分析接入层日志,从日志提取指标
  • 链路追踪 : 用 Zipkin、SkyWalking

组件监控

组件 : 各类数据库、中间件、云平台

  • 各组件都支持 Prometheus 协议,暴露 metrics

资源监控

基础资源的监控 :

  • 设备分为 : 服务器、网络设备
  • 网络监控分为 : 连通性监控、质量监控、流量监控

设备监控

设备监控 : 获取硬件模块的健康状况,如 : 电源电压、风扇转速、主板环境温度,就要走 IPMI 协议,通过带外网络采集

网络设备 : 交换机、防火墙,一般用 SNMP 协议获取指标,如 : 交换机各个网口的流量、包量; 或 syslog 把交换机的日志传到服务器上分析

网络监控

网络连通性监控 :

  • 通过 ICMP 协议,对目标设备做 PING 探测,能探通:能连通,探测失败:连不通
  • 当机器禁 PING ,就用 TCP 或 HTTP 协议探测

网络质量 : PING 探测能拿到丢包率和延迟数据,就能分析网络质量

  • 如 : 两个机房之间的专线,用 A 机房的探针去探测 B 机房的目的设备,就能知道机房之间的网络质量情况

流量监控 : 如 : 机器的网卡流量、交换机的网口流量、机房出口流量

你可能感兴趣的:(Monitor,服务器,大数据,运维,prometheus,架构)