根本原因分析(RCA)

根本原因分析(RCA)_第1张图片
image.png

根本原因分析(Root Cause Analysis,RCA),它是一项结构化的问题处理法,用以逐步找出问题的根本原因并加以解决, 而不是仅仅关注问题的表征。所谓根本原因,就是导致我们所关注的问题发生的最基本原因。引起问题的原因通常有很多,物理条件、人为因素、系统行为、或者流程因素等等,通过科学分析,有可能发现不止一个根本原因。

根本原因分析是一个系统化问题处理过程,包括确定和分析问题原因,找出问题解决办法,并制定问题预防措施。在组织管理领域内,根本原因分析能够帮助利益相关者发现组织问题的症结,并找出根本性的解决方案。也就是说,RCA有三个目标:第一个目标是发现问题(发生了什么)或事件的根本原因(为什么发生);第二个目标是全面了解如何修复、弥补根本原因内的深层问题,以及如何吸取教训;第三个目标是将从分析中获得的见解应用到实践中,形成模式,从而以系统化方式预防各种问题,或者再次运用成功的做法(什么办法能够阻止问题再次发生)。

“五个为什么”分析法是指在根因分析中,从结果着手,连续询问多个为什么,按照一定的因果逻辑关系,层层递进直至找到问题根因。有着“打破沙锅问到底”的精神。

如何进行根本原因分析?

首先,我们列出可能导致某个事件发生的所有潜在原因。这应该包括所有有害、有益及良性变更。

接下来,我们根据自己对每个变更或事件的影响力对其进行分类。我们的类别可以是“内部/外部”、“自有/非自有”等等。

第三步,我们逐个分析每个事件,确定该事件是无关因素、相关因素、促成因素,还是可能的根本原因。大部分分析工作都集中在这个阶段,我们可以在此阶段使用的方法包括“5 问法”。

第四步,我们研究怎样才能复制根本原因或者对其采取纠正措施。

RCA(Root Cause Analysis)模板

当然,遇到真正线上问题是先解决问题,止损,再分析原因。那种不知道原因,无法重现的除外。

发现时间:
问题发现人:
解决时间:
问题处理人:
问题描述如:
问题分类:代码变更、配置错误、网络故障、管理流程问题、产品方案缺陷、测试质量问题
影响等级(问题持续时间):
P1 业务中断4小时以上
P2 业务中断2-4小时
P3 业务中断1-2小时,业务核心功能无法使用
P4 业务中断1小时以内,核心功能受到影响
P5 业务中断1小时以内,业务次要功能无法使用

步骤一:商业影响 (概括说明发生的问题和带来的影响)

  1. 有无外部客户影响?
  2. 有无投诉?
  3. 商业损失金额?
  4. 公司形象受损?
  5. 交易业务是否受影响?

步骤二:处理过程记录(描述处理步骤、时间、人员)
1.【DD:HH:MM】 某人员在做何处理

步骤三:原因分析(将具体原因分类并查找根本原因,并将原因与结果结合起来)

  1. PRD文档设计时未考虑字段统一及向下兼容性,导致设计字段有误

步骤四:整改措施(对策与行动列表)

  1. 归纳目前接口字段,确保未来设计保持一致
  2. 涉及已有接口更新时,保证字段命名统一,并向下兼容
  3. 如字段有减少,需提前通知下游系统变化

你可能感兴趣的:(根本原因分析(RCA))