架构设计读书笔记-高可用(二)- FEMA

FMEA方法

FMEA(Failure mode and effects analysis,故障模式与影响分析),FMEA 是一种在各行各业都有广泛应用的可用性分析方法,通过对系统范围内潜在的故障模式加以分析,并按照严重程度进行分类,以确定失效对于系统的最终影响。

具体分析方法

  • 给出初始的架构设计图。

  • 假设架构中某个部件发生故障。

  • 分析此故障对系统功能造成的影响。

  • 根据分析结果,判断架构是否需要进行优化。

FMEA分析表

其实,就是一个FMEA分析表,表格包含下面部分

功能点: 用户的角度,而不是系统各个模块的功能点划分

故障模式: 精确、量化,避免泛华

故障影响: 故障模式造成的功能点的具体影响,准确描述

严重程度: 业务角度看,一般按程度分为“致命、高、中、低、无(优化)”

故障原因:概率不相同、检测手段不一样、处理措施不一样

故障概率:根据故障原因,概率一般按高中低三档划分

风险程度:综合严重程度加故障概率判断

已有措施:已有的如检测告警、容错、自恢复等。不一定所有问题都需要解决,规避措施也可以

规避措施:降低故障概率的技术或管理手段

解决措施:一般是通过技术手段进行修复

后续规划:综合已有、规避、解决措施,结合风险程度进行优先级排序,规划问题解决计划

FMEA实战

简单的用户管理系统,包含登陆和注册两个功能,初始架构:


初始架构

FEMA表格如下:

功能点 故障模式 故障影响 严重程度 故障原因 故障概率 风险程度 已有措施 规避措施 解决措施 后续规划
登陆 Mysql无法访问 当MC中无缓存,预计有60%用户无法登陆 Mysql服务器断电 增加备份Mysql
登陆 同上 同上 Server到Mysql网络连接中断 Mysql双网卡连接
登陆 Mysql响应时间超过5s 60%用户登陆时间超过5s 慢查询导致Mysql运行缓慢 慢查询检测 重启Mysql 不需要
登陆 MC无法访问 所有用户都到Mysql查询信息,Mysql压力增大,响应变慢 低,慢,但是能登陆 MC服务器断电 MC集群
注册 Mysql无法访问 用户无法注册 低,新注册用户少,每天只有100个 Mysql服务器断电 无,因为增加备份机器,也无法作为主机写入
注册 MC无法访问 无影响,用户注册不操作MC MC服务器断电 不需要

由此主要改进措施为:

  • Mysql增加备机

  • MC从单机扩展为集群

  • Mysql双网卡连接

改进后的架构:


改进架构

你可能感兴趣的:(架构设计读书笔记-高可用(二)- FEMA)