统一告警平台设计方案

功能概述:主动告警、被动告警、系统告警、项目性能告警、业务告警

告警指标:成功率、服务响应时间、longUrl、longSQL、OOM 、服务离线、健康检查、服务器性能、自动扩缩容,以及恢复

统一告警平台设计方案_第1张图片

日志埋点:由开发按个人需要进行日志埋点

日志采集:由运维进行开发,基于现有的日志系统,使用filebeat对日志文件进行过滤采集,将包含error/Error关键字的日志行发送至kafka

Skywalking埋:根据需求,在Skywalking配置相应的告警规则,配置webHook地址

阿里云服务器监控埋点:将阿里云告警模块的webHook地址配置成告警平台地址

告警平台Service

接受kafa消息,分析日志匹配关键字,按规则取值

接受项目告警调用

发送钉钉消息 

告警平台UI: 

  项目组管理:星选项目整理分组,对应负责人管理  配置告警级别, 配置多级告警

  告警规则管理:完成基本的告警规则管理,项目、匹配值、阈值、告警人、静默时间等等

出现故障及时报警或预警,能够主动的发现问题,及时解决生产问题;对项目性能监控,发现问题,提示开发人员主动优化性能,以提供服务器利用率,规避风险;监控产品状态,保障产品健康运行的目的。

你可能感兴趣的:(告警,告警平台,Prometheus,普罗米修斯,grafana,ZABBIX)