紧急事故的流程管理

紧急事故的流程管理_第1张图片

嵌套式职责分离

在事故处理中,让:每个人清楚自己的职责是非常重要的。有点反直觉的是,明嘶职费反而能够使每个人可以更独立自主地解决问题,因为他们不用怀疑和担心他们的同事都在干什么。
如果一个人目前要处理的事情大多了,该人需要向计划负责人申请更多的人力资源。他们应该将一部分任务交接给其他人,有的时候这些人应该负责在事故流程管理系统中创建更多的子事故(即用来通知公司其他相关部门等。)另外一种方式是,某个负责人可以将某个系统组件完全交给同事来处理,由该同事直接向负责人汇报情识。
以下是系统中可以分配给某个人的角色。

事故总控 (incident command)

事故总控负责人掌握这次事故的概要信息。他们负责组建事故处理团队,按需求和优先级将一些任务分配给团队成员。未分配的职责仍由事故总控人负责。如果有必要的话,他们要负责协调工作,让事务处理团队可以更有效地解决问题,比如代申请访问权限、收集联系信息等。

事务处理团队 (operational work )

事务处理团队负责人在与事故总控负责人充分沟通的情况下,负责指挥团队具体执行合适的事务来解决问题。事务处理团队是在一次事故中唯一能够对系统做修改的四队。

发言人(communication)

该人是本次事故处理团队的公众发言人。他的职责包括向事放处理团队和所有关心的人发送周期性通知(通常以电子邮件形式),同时可能要负责维护目前的事故文档,保证其正确性和信息的及时性。

规划负责人(planning)

规划负责人负责为事务处理团队提供文特,负责处理一些持续性工作,例如填写
Bug 报告记录系统,给事务处理团队订晚餐,安排职责交接记录。同时负责记录在处理过程中对系统进行的特殊操作,以便未来事故结束后能够复原。

控制中心

受到事故影响的部门或者人需要知道他们可以与事故总控负责人联系。在很多情况下,可以设立一个“作战室”(war room),将处理问题的全部成员挪到该地办公。其他团队可能更希望在自己的办公位处理问题,通过IRC 或者 E-mail 关注事态进展。
Google 发现IRC对紧急事故处理非常有帮助。IRC系统非常可算,同时可以为整个沟通过程提供记录,对处理过程中的细节记录非常有帮助。我们开发了一些IRC机器人,有的可以将事故处理的通信过程记录下来帮助事后总结分析,有的可以记录在事故过程中发出的所有报警。IRC 同时也是一个分布全球的团队协调工作的良好媒介。

实时事故状态文档

事故总控负责人最重要的职责就是要维护一个实时事故文档。该文档可以以 wiki 的形式存在,但是最好能够被多人同时编辑。大部分 Google 团队使用 Google Docs, 但是
Google Docs 团队使用 Google Sites 做这件事:利用你正要修复的服务来修复该服务恐怕不是什么好主意。

明确公开的职责交接

超出工作时间以后,事故总控负责人的职责能够明确、公开地进行交接是很重要的。如果你将事故总控职责交接给另外一个地区的人时,可以通过电话或一次视频会议将目前的情況交接给他。当新的事故总控负责人了解了目前事故情况时,当前事故总控负责人必须明确地声明:“从现在开始由你负责事故总控,请确认。”当前事故负责人在得到明确回复之前不得离开岗位。交接结果应该宣布给其他正在处理事故的人,明确目前的事故总控负责人

你可能感兴趣的:(Another,K8S,Linux,数据库)