程序员如何编写一份互联网事故分析报告

前提

最近的一次公司生产事故,影响面比较大,自己也觉得处理过程中有许多需要反思的地方,就想写一份事故分析报告,用于发现问题和总结经验。模板有很多,其实主要要想好自己所处的职位和场景怎么呈现这份报告是有价值的。而不是简简单单的流水账。

文末有模板

当时我是从三个方面思考如何编写事故分析报告

  • 为什么要写事故分析报告?目的是什么?
  • 通过事故分析报告才能达成目的?
  • 需要做具体哪些事情?

一、为什么编写事故分析报告?

事故的发生是任何人都不想发生的,最好的措施是防止事故发生。当事故真正发生后也应该积极去面对。毕竟每件事情都是有周期存在的,故障是不能完全消除的。所以在事故发生后编写事故分析报告首先可以分析根本原因和总结经验,防止事故二次发生,以及下次可以更快的处理。同时也能恢复团队的信心。亡羊补牢,为时未晚。
在我编写事故分析报告的目的有:正式以书面的形式在整个公司层面说明清楚情况,减少信任损失。并且以事故分析报告为依据,在接下来的一段时间内进行系统服务的改善。

二、通过事故分析报告如何才能达成目的?

首先要所以信息依据事实,不要放凭感觉得到的信息;比如事故中的服务不能提供服务后,针对服务器的操作时间和操作内容详实记录。不对当时的内容操作做评价;
其次最好记录当时的主要决策内容:比如是否采取回滚,回滚版本;尝试做了哪些补救措施等;要站在人力可以达到的角度来划分此次事故的爆发期、处理期和结束等周期,为什么这么说呢?因为如果站在上帝角度来总结事故,对于当事人来说会感受到很大的压力。并且对于以后的事故处理的指向性也不会有较大的帮助。在事故发生中,大多还是依赖于数据反馈和程序员的经验,虽然有时候经验不靠谱,但去请教技术专家和立即学习原理已经是不可能的事情。要允许尝试性的行为存在。
最后要编写问题清单,以一定的顺序和优先级罗列事故中的暴露的系统缺陷以及处理过程中的不当操作。

三、需要做具体哪些事情?

如果能客观的把事故的前后梳理清楚后,具体需要做哪些补救措施已经很明显了,只需要针对每个问题制定一个计划,并确定该计划是可行并有效即可。
最后一点个人觉得事故分析报告应该是一个开放式的,每个人从各自的角度都会看到更多的问题,可以围绕着事故分析报告从多个角度进行复盘,最终形成有价值的公司事故处理手册或事故预案。

报告模板

事故报告模板

你可能感兴趣的:(程序员如何编写一份互联网事故分析报告)