SRE Google运维解密_读书笔记1

  1. 监控的4个黄金指标:错误、延迟、流量、饱和度(容量)。
  2. SLO服务水平目标,健康度检测使用
  3. 运维平台:
  1. 关于应急管理时,有没有考虑过通过一键触发的方式,将当前紧急情况通过内部通讯工具、邮件、短信等渠道触达到系统相关人。这样可以实时看到当前系统处理情况,调配各种资源协助,根据故障情况决定是否升级保障,记录整个应急处理各时间点的过程,也便于编写事后总结报告。当前应急处理时大家忙于处理问题,内部通讯工具里的信息不能及时反映当前状态,缺少有序管理的机制。
  2. 主备岗交接机制,借助自动化服务平台,将升级流程固化,降低学习成本。
  3. 以系统为维度,将相关机器管理起来,管理主备岗运维操作机的登录权限。
  1. 研发参与on-call
    1. 研发人员也参与运维on-call值班,或者出现业务设计不合理引发的bug,需要运维人员每日大量的手工处理,提高业务需求开发响应速度。
    2. 运维开发人员也参与运维on-call值班,可以发现运维的痛点,提高运维需求的响应速度。
  2. 生产问题Jira工单:
  3. 通过Jira记录生产问题,通过5Y(what何事?why为什么?when何时?where何地?who关系谁?)分析问题原因,跟踪问题解决进展。
  4. 事故报告,做的好的地方,不好的地方,从中学到了什么?
  5. 通过一个wiki生产问题自定义流程,过滤出Jira

你可能感兴趣的:(运维之道)