运维监控系统实战笔记之开篇词

老师希望在这门课里边给我们一套正确的、系统的、尽可能完备的运维监控系统知识手册。
我们需要知道每个关注高可用、关注服务稳定性的技术人员都应该学习监控相关的知识。而在稳定性保障体系中,核心就是在干一件事,减少故障。
故障的生命周期如下:
运维监控系统实战笔记之开篇词_第1张图片
减少故障有两个层面的意思:

第一个是预防故障,不让故障发生
第二个是在故障发生之后,及时止损,减少故障时长

监控的典型作用就是帮助我们发现及定位故障。

虽然运维人员和开发人员都是典型的关注稳定性的人,但是关注点明显不同。运维人员负责全公司所有业务的运维工作,而开发人员只负责自己业务线的研发,当发生故障的时候,运维人员想赶紧找出故障原因,然后及时止损,而开发人员则想证明自己的清白。

课程的组成如下:

1.基础知识:监控产生的原因、监控典型方案及其优缺点、监控领域的行业术语、典型架构
2.搭建并优化Prometheus:如何搭建、Prometheus的架构、PromQL常见使用场景、存储容量问题、告警管理问题
3.监控实战,搞定常见的监控需求:操作系统、网络设备、MySQL、Redis、Kafka、ElasticSearch、Kubernetes、应用、日志等方面监控问题全解决
4.告警实战,设计良好的告警系统应该具备哪些能力:告警规则、屏蔽规则、抑制规则、订阅规则的管理,还有告警事件的管理以及告警事件触发后的自愈逻辑。

此文章为9月Day 4学习笔记,内容来源于极客时间《运维监控系统实战笔记》。

你可能感兴趣的:(运维监控系统实战笔记,运维,学习)