架构运维-监控设计

监控内容

  • 网络数据,针对接入层的监控。
  • 服务器数据,包括服务器的 CPU、内存、硬盘、连接数的各项使用数据。
  • 应用数据。应用数据是这三者中最难的,但也是最重要的。应用数据是和业务逻辑紧密相关的数据,业务逻辑变了,应用数据的收集也会变化。
  • 性能监控,根据日志监控接口的流量、超时率、错误率等
  • 安全监控,通过实时监控网络或主机活动,分析用户和系统的行为,识别攻击行为,对异常行为进行统计和跟踪。

通知机制

  • 运维平台监控报警服务需要支持可配置的短信、电话、微信群报警。
  • 通知的内容尽可能简要清晰,能够快速识别异常。(报警邮件中异常需要单独列出 不能混在输入输出信息中)

监控规则:

  • 业务监控,匹配正常业务返回的状态码。
  • 定义异常Code码,针对异常Code进行监控。
  • 可以支持使用脚本编写复杂监控规则。
  • 可以提供基于线上实时日志的监控支持。
  • 第三方接口都需要添加监控。

报警规则

  • 报警级别划分为告知、异常、事故三个等级,且对于业务监控,业务可以根据需求进行配置。
  • 事故级别的报警,白天晚上都必须打电话通知。
  • 异常级别的报警,白天打电话,晚上可以发一封邮件、短信先通知问题。
  • 告知级别的报警:可以只发一封邮件。
  • 报警抑制:第一次异常报警之后,抑制一段时间(比如5分钟)再发送报警通告,以防止报警轰炸。
  • 触发机制:业务侧可以自己定义,比如连续5次发生异常才报警;连续5次告知可以升级为异常,连续5次异常可以升级为事故

数据存储和展现

  • 将历史的监控报警数据存储下来,并通过图表在运维平台上展现,以便于后续的数据分析和报警规则的优化。

你可能感兴趣的:(架构运维)