zabbix稳定性技术方案

zabbix 介绍

公司的主机和应用监控目前采用zabbix进行数据采集、告警。

访问地址:

目前开启匿名访问,可以使用查看基础数据,如需编辑请至负责人赵红金申请开通管理员权限(仅对运维开放)。

zabbix稳定性技术方案_第1张图片

项目规范

1、告警级别

告警级别

描述

业务影响

适用场景

Disaster

灾难

业务受到影响或者业务不可用,比如业务核心指标下跌告警,需要立即处理

High

高危

系统、服务、业务可能受到影响,比如DB切换、Redis/MQ宕机、App Down,需要立即处理

Warning

警告

当前系统、服务、业务没有受到影响,但需要跟踪关注处理,继续恶化会触发High级别告警

2、告警通知信息

告警来源,告警发送源

告警对象,告警主机

告警指标,具体监控项或触发器名

告警信息,告警提示信息

告警时值,告警时的具体值

告警时间,告警产生时间

告警级别,Warning、High、Disaster

告警分类,告警对应的类别

3、告警分类

对于告警主要划分为三类,“系统基础告警”、“应用服务告警”,”业务指标告警“。

3.1、系统基础告警,主要为阿里云基础设备和网络,ECS 主机CPU,内存、硬盘,SLB ,CDN,OSS等。产生的告警。

3.2、应用服务告警,主要为各应用程序本身及提供的接口服务等各方面性能产生的告警,包括APP,kafka,mq,redis,pg等。

3.3、业务指标告警,是指业务方面的各项指标,比如,订单,登录,开关锁,失联等。

4、角色职责

软件研发,各个团队各自负责对应应用程序服务的稳定性、可用性及性能优化。以及业务告警相关的故障处理。

运维团队,统筹接收所有警告消息,noc对较高级别的告警进行跟进推动,必要时可向直接应用负责人电话通知,确保重大事件在第一时间由相关团队介入处理。

Leader,各团队Leader会接收到各自团队所接收的报警中的危急级别的告警,重点告警推送,让leader清晰了解当前告警程度及影响,便于对故障做想应处理。

5、告警通知人

系统基础告警:会通知些ECS在CMDB里的相关负责人,如果相关负责人为空,则通知第一负责人。

应用服务告警:会通知些ECS在CMDB里的相关负责人,如果相关负责人为空,则通知第一负责人。

    (但以应用服务告警里有很多告警是发给应用负责人的。比如告警以APP开头、以Rabbitmq开头、以Aliyun、以SLB等,具体可以问查询Alerts发送告警规则。)

业务指标告警:些类告警,由业务指标告警设置人自定义告警通知人。

项目框架

zabbix稳定性技术方案_第2张图片

 

项目部署

ECS_name

ENV

Mark

pro

zabbix 监控定时脚本

pro

zabbix jolokia 查询JMX参数

pro

pro zabbix httpd zabbix-server

pro

pro zabbix mysqld

pro

pro zabbix ES

pro

pro zabbix ES

pro

pro zabbix ES

pro

pro zabbix ES mast

SLB_ZabbixDataElasticsearch-inner..XXX.cn

pro

pro zabbix ES mast

SLB_ZabbixDataElasticsearch-inner..XXX.cn

pro

pro zabbix ES mast

SLB_ZabbixDataElasticsearch-inner.XXX.cn

pro

pro zabbix ES

pro

pro zabbix ES

pro

pro zabbix ES

dev

dev环境 zabbix server mysql

dev

dev zabbix ES

核心链路依赖关系

               zabbix稳定性技术方案_第3张图片

 

容量水位

 

zabbix ES 数据读写速度

zabbix稳定性技术方案_第4张图片

 

zabbix ES 所有节点CPU、内存、磁盘容量水位

zabbix稳定性技术方案_第5张图片

zabbix mysql CPU、内存、磁盘容量水位

监控地址:

 zabbix稳定性技术方案_第6张图片

 

zabbix server 服务器 CPU、内存、磁盘容量水位

监控地址:

zabbix稳定性技术方案_第7张图片

 

线上问题处理SOP

1、发现zabbix 数据同步进程停止,停止数据写入ES。

2、关闭ES两天前的索引,减少zabbix-server重启后的同步数据压力。

3、重启zabbix-server恢复数据。

zabbix稳定性技术方案_第8张图片

 

稳定性的机制

1、对grafana面板进行优化,防止部分面板数据请求量太大,对zabbix数据请求量突然增加,影响zabbix数据同步进程。

你可能感兴趣的:(基础架构,大数据)