一次研发类生产环境问题处理的总结

处理流程

  1. 在问题发生后,需要及时知会相关人员问题,包括:问题发生时间、问题现象、问题影响
  2. 开始进行问题排查,记录涉及服务及对应的参与人员
  3. 一段时间后,若是问题较为棘手,需要耗费更长时间定位,则优先考虑实施规避方案,并同步问题进展
  4. 继续完成问题排查,直至问题根因
  5. 分析现网环境是否存在相同或类似的问题,若存在,则尽快安排进行修复
  6. 考虑后续改进工作(根因/触发条件/监控告警是否生效/等等)

问题进展通报模板(参考Google SRE 事后总结)

【xxx服务问题通报】xxxxxxxxx问题摘要
【问题发生时间】2018-10-18 xx:xx:xx
【问题描述】xxxxxxxxxx问题详细描述
【问题影响】xxxxxxxxxxxxxxxx问题影响
【当前状态】(已受理/技术服务orSREor开发定位中/已解决,待办事项进行中/...)
【规避方案】棘手问题需优先恢复环境
【定位过程】具体定位过程,视情况决定取舍
【根源问题】问题根因
【解决方案】最终解决方案
【相关人员】涉及服务、相关人员
【后续改进/待办事项】关键步骤,决定我们未来会不会再掉进同一个坑里

待办事项 类型 负责人 TickID
xxxxx 预防 xxx xxxxx

【经验教训】做得好的地方/做得不好的地方/幸运的因素
【时间线】记录问题发生后相关的一系列事件及发生的时间点

你可能感兴趣的:(一次研发类生产环境问题处理的总结)