zabbix 介绍
公司的主机和应用监控目前采用zabbix进行数据采集、告警。
访问地址:
目前开启匿名访问,可以使用查看基础数据,如需编辑请至负责人赵红金申请开通管理员权限(仅对运维开放)。
项目规范
1、告警级别
告警级别 |
描述 |
业务影响 |
适用场景 |
Disaster |
灾难 |
有 |
业务受到影响或者业务不可用,比如业务核心指标下跌告警,需要立即处理 |
High |
高危 |
有 |
系统、服务、业务可能受到影响,比如DB切换、Redis/MQ宕机、App Down,需要立即处理 |
Warning |
警告 |
无 |
当前系统、服务、业务没有受到影响,但需要跟踪关注处理,继续恶化会触发High级别告警 |
2、告警通知信息
告警来源,告警发送源
告警对象,告警主机
告警指标,具体监控项或触发器名
告警信息,告警提示信息
告警时值,告警时的具体值
告警时间,告警产生时间
告警级别,Warning、High、Disaster
告警分类,告警对应的类别
3、告警分类
对于告警主要划分为三类,“系统基础告警”、“应用服务告警”,”业务指标告警“。
3.1、系统基础告警,主要为阿里云基础设备和网络,ECS 主机CPU,内存、硬盘,SLB ,CDN,OSS等。产生的告警。
3.2、应用服务告警,主要为各应用程序本身及提供的接口服务等各方面性能产生的告警,包括APP,kafka,mq,redis,pg等。
3.3、业务指标告警,是指业务方面的各项指标,比如,订单,登录,开关锁,失联等。
4、角色职责
软件研发,各个团队各自负责对应应用程序服务的稳定性、可用性及性能优化。以及业务告警相关的故障处理。
运维团队,统筹接收所有警告消息,noc对较高级别的告警进行跟进推动,必要时可向直接应用负责人电话通知,确保重大事件在第一时间由相关团队介入处理。
Leader,各团队Leader会接收到各自团队所接收的报警中的危急级别的告警,重点告警推送,让leader清晰了解当前告警程度及影响,便于对故障做想应处理。
5、告警通知人
系统基础告警:会通知些ECS在CMDB里的相关负责人,如果相关负责人为空,则通知第一负责人。
应用服务告警:会通知些ECS在CMDB里的相关负责人,如果相关负责人为空,则通知第一负责人。
(但以应用服务告警里有很多告警是发给应用负责人的。比如告警以APP开头、以Rabbitmq开头、以Aliyun、以SLB等,具体可以问查询Alerts发送告警规则。)
业务指标告警:些类告警,由业务指标告警设置人自定义告警通知人。
项目框架
项目部署
ECS_name |
ENV |
Mark |
|
pro |
zabbix 监控定时脚本 |
||
pro |
zabbix jolokia 查询JMX参数 |
||
pro |
pro zabbix httpd zabbix-server |
||
pro |
pro zabbix mysqld |
||
pro |
pro zabbix ES |
||
pro |
pro zabbix ES |
||
pro |
pro zabbix ES |
||
pro |
pro zabbix ES mast |
SLB_ZabbixDataElasticsearch-inner..XXX.cn |
|
pro |
pro zabbix ES mast |
SLB_ZabbixDataElasticsearch-inner..XXX.cn |
|
pro |
pro zabbix ES mast |
SLB_ZabbixDataElasticsearch-inner.XXX.cn |
|
pro |
pro zabbix ES |
||
pro |
pro zabbix ES |
||
pro |
pro zabbix ES |
||
dev |
dev环境 zabbix server mysql |
||
dev |
dev zabbix ES |
核心链路依赖关系
容量水位
zabbix ES 数据读写速度
zabbix ES 所有节点CPU、内存、磁盘容量水位
zabbix mysql CPU、内存、磁盘容量水位
监控地址:
zabbix server 服务器 CPU、内存、磁盘容量水位
监控地址:
线上问题处理SOP
1、发现zabbix 数据同步进程停止,停止数据写入ES。
2、关闭ES两天前的索引,减少zabbix-server重启后的同步数据压力。
3、重启zabbix-server恢复数据。
稳定性的机制
1、对grafana面板进行优化,防止部分面板数据请求量太大,对zabbix数据请求量突然增加,影响zabbix数据同步进程。