[原创]浅谈互联网企业故障定级

[原创]浅谈互联网企业故障定级

  相信各位所在的互联网企业,都会有对故障级别的定义,不管是做金融,电信,游戏,还是社交等,故障这个词永远不陌生,今天来谈下对故障定级应如何去考虑。

首先,来谈谈什么是故障?系统上线后,一般都会正常运营,如果出现一些非不可抗拒因素造成的对系统服务中断或是发生非预期的行业,都可以称为故障。通常多数公司都会按严重性来区分故障定级,虽然是一个很好的方法,但有时技术人员会绝得,我很短时间就恢复了,并没有造成很大的损失,所以个人绝得故障也要有时间维度,总结如上所说,我们就将按严重性危害和时间二个大的维度来定义。

  故障定级,一般我们会去定义5级,具体如下:

1级 系统中断2小时以上  造成大范围影响使用(一般出现主要的领导是要背责的);

2级 系统中断30分钟-2小时之间    造成大范围影响使用;

3级 系统重要模块出现问题,影响大量用户投诉;

4级 系统次要模块出现问题,影响部分用户投诉;

5级 系统资要模块出现问题,有少许影响造成投诉;

  通常各公司故障定级大同小异,与我上面描述都差不了多少,只是具体的边界限定各公司标准不一样,个人认为一个成熟的公司至少都应有上面如述要求;但是我们发现没这个定义去恰恰少了一些重要考虑因素,是什么呢?钱,如果出了故障很小范围,影响面小,但会给公司造成损失,难道不考虑吗?所以在互联网金融系统中,对故障尤其是资金安全也会做为一条衡量系统故障级别的考察点,一般我们定义如下:

  如果给公司或用户造成50000元损失,将认定为1级严重故障或是事故(一般出现主要的领导是要背责的);其它各级别定义,我就不在详述,基本上大同小异,重要的考考虑问题及思考的角度。

  

 

你可能感兴趣的:([原创]浅谈互联网企业故障定级)