大厂经典运维监控(Zabbix+Prometheus)面试题整理汇总

1、监控原则

  • 监控是基础设施,目的是为了解决问题,不要只朝着大而全去做,尤其是不必要的指标采集,浪费人力和存储资源(To B商业产品例外)。
  • 需要处理的告警才发出来,发出来的告警必须得到处理。
  • 简单的架构就是最好的架构,业务系统都挂了,监控也不能挂。Google Sre 里面也说避免使用Magic 系统,例如机器学习报警阈值、自动修复之类。这一点见仁见智吧,感觉很多公司都在搞智能 AI 运维。

2、Zabbix有哪些组件

  1. Zabbix Server:负责接收agent发送的报告信息的核心组件,所有配置、统计数据及操作数据均由其组织进行
  2. Database Storage:专用于存储所有配置信息,以及有zabbix收集的数据
  3. Web interface(frontend):zabbix的GUI接口,通常与server运行在同一台机器上
  4. Proxy:可选组件,常用于分布式监控环境中,代理Server收集部分被监控数据并统一发往Server端
  5. Agent:部署在被监控主机上,负责收集本地数据并发往Server端或者Proxy端

3、Zabbix的两种监控模式

Zabbix agent检测分为两种模式:主动模式和被动模式

被动模式,也是默认的Zabbix监控模式,被动模式是相对于proxy来说的。proxy主动发送数据就是主动模式,proxy等待server的请求再发送数据就是被动模式。
 
使用zabbix主动模式的好处:可以监控不可达的远程设备;监控本地网络不稳定区域;当监

你可能感兴趣的:(Linux,SRE,运维部署与监控,系统性能指标,故障排除,面试,职场和发展)