ITIL学习-知识管理和服务级别管理
ITIL学习-变更管理和配置管理
ITIL学习-问题管理和访问管理
ITIL学习-事故管理
ITIL学习-运营、技术、应用管理和技术管理
ITIL学习-作用、原则、生命周期

事故管理

视频链接

事故:it服务无计划中断或者it服务质量下降

目标:尽快恢复正常服务运营(asap)

来源:告警,用户通告,技术人员

价值:检测和解决事故的能力,减少业务停机时间,支持服务期的高可用性

事故管理原则和基本概念

视频链接

时间范围

响应时间:多长时间回复第一条数据给用户

解决时间:恢复故障的时长,包含所有涉及部门,包含供应商和技术提供商的处理时间。

临时措施:

临时的解决方法

变更请求:

结构化解决问题

事故管理流程

视频链接

1、事故记录

2、是否是服务请求,比如账户不能登录,但也许是密码需要重置,而这不能算是事故。

3、优先级:评定优先级,如果是重大问题需要走重大故障应急流程

4、初始诊断:大概了解故障点,怎么出现的故障

5、技术解决:利用技术解决问题

6、检查:写报告和通知相关人员

事故记录与分类

视频链接

需要定期开例会,回顾上一个阶段的工作

事故日志记录

  • 详细、包含状态
  • 使用工具支持

分类

  • 分类编码规则
  • 按级别分类
  • 定期回顾并不断完善

优先级

视频链接

综合考虑如下两个方面

  • 紧急程度:

1、系统重要性

2、出故障时间

  • 影响程度:

1、事故程度

2、影响范围

事故升级

视频链接

升级:如果某个事故在规定时间内不能给出解决,则需要更有经验的和更高权限的人员参与。

升级的方式:1、职能(技术)升级2、结构(管理)升级

所谓升级就是在当前不能处理问题的时候,去找更厉害的人呢,只能就是找技术大牛,结构升级是找领导。

事故管理-事故关闭

视频链接

由服务台负责

检查内容

  • 核实分类并修正
  • 用户满意度调查
  • 事故文档
  • 是否记录问题
  • 正是关闭

事故管理-与其他流程的关系

视频链接

事故管理:快速解决已经发生的问题

问题管理:深入研究问题的内在原因,并且要根本性解决频繁发生的故障

事故管理的挑战

视频链接

  • 如何尽早发现事故
  • 要求技术人员同用户一样记录所有事故。并鼓励用户使用自助平台
  • 问题与已知错误信息的有效性
  • 与配置管理系统的集成
  • 与服务级别管理流程的集成

事故经理:

视频链接

推动事故流程的执行,监控和改进事故流程,管理重大事故,开发和维护相关系统,一般由服务台主管担任。

关键度量指标

1、事故总数

2、事故状态

3、当前未完成数量

4、重大事故数量和比例

5、平均解决时间

6、sla达标率

7、每个事故的成本

8、重开事故的数目