架构师学习笔记17--系统的可靠性分析与设计

可靠性分析与设计时系统分析与设计、系统集成阶段应该重点考虑的问题。

一、可靠性概述
相关概念主要有:
可靠度、可用度、可维度、平均无故障时间、平均故障修复时间及平均故障间隔时间。

二、系统故障模型
1、逻辑级的故障模型
2、数据结构的故障
3、软件故障和软件差错
4、系统级的故障模型

三、系统配置方法

(一)单机容错

1、自检
系统在发生非致命性故障时能自动发现故障和确定故障的性质、部位,并自动采取措施更换和隔离产生故障的部件。

2、冗余

1)硬件冗余

2)软件冗余

3)时间冗余
指令重复执行、程序重复执行

4)信息冗余等。
增加数据位等

冗余技术中最常用的两种方法是重复线路和备份线路。重复线路指并联,双保险;备份则是失败还能补救。

自检常配合冗余一起使用。

(二)双机热备份
一种软硬件结合的较高容错应用方案。由两台服务器和一个外接共享磁盘阵列柜、双机热备软件组成。磁盘阵列卡非必须,可以在这两台服务器中采取RAID(独立冗余磁盘阵列)卡来代替。

双机热备份方案中,操作系统和应用软件安装在两台服务器的本地磁盘,而数据则通过磁盘阵列集中管理和备份。一台服务器出现故障,另一台顶上,实现服务不间断。

双机热备份采用“心跳”方法保证主系统与备用系统的联系。

双机热备份根据两台服务器的工作方式,有3种不同模式:

1、双机热备
一台工作,一台时刻准备着。数据同时往两台机写入,保持同步。一旦工作机出现故障,备机通过软件自动或手工切换。
使用最普遍的方式。但由于备机可能长期空闲,浪费。

2、双机互备
两套相对独立的应用分别在两台服务器上运行,彼此互为备机。其中一台出现故障,则另一台可以将对方的应用接管过来。
服务器性能要求高。

3、双机双工
集群一种形式。两台服务器均处于活动状态,同时运行相同的应用(区别于双机互备,双机互备的应用是不同的),负载均衡,互为备份。
通常磁盘柜存储技术、WEB服务器、FTP服务器应用较多。

(三)服务器集群
集群技术指一组相互独立的服务器在网络中组合成单一的系统进行工作和管理,从而提供高可靠性的服务。

大多数情况下,集群中的所有计算机拥有一个共同的名称,集群内任一服务都可被所有网络用户使用。

集群内各节点服务器通过一个内部局域网相互通信,当一个节点发生故障,该节点所运行的应用被另一个节点自动接管;如果一个应用服务故障,则该应用会被重启或被其他服务器接管。

四、提高系统可靠性的措施

(一)防止故障的技术

防止故障导致系统失效,两种技术:
1、故障掩蔽
防止故障造成差错

2、系统重组
防止差错导致失效

这两种技术都建立在资源冗余的基础上。如前所述,资源冗余包括 硬件冗余、软件冗余、时间冗余和信息冗余。

(二)硬件冗余
硬件冗余最常用的是三模冗余(TMR),三个相同的模块接收三个相同的输入,产生的三个结果送至表决器。表决器为多数表决,一个故障,另两个正常,则输出正常结果。显然,正常的概率更大。
架构师学习笔记17--系统的可靠性分析与设计_第1张图片

(三)信息冗余
信息冗余指的是在数据中附加冗余的信息以达到故障检测、故障掩蔽或容错的目的。
应用最广泛的是
1、海明校验码
2、奇偶校验码(CRC)。

五、备份与恢复
1、联机备份(热备)
2、脱机备份(冷备)

你可能感兴趣的:(学习笔记)