软考架构师(10)——系统的可靠性分析与设计

全文链接:https://www.cnblogs.com/nullering/p/9684820.html

一、可靠性概述

概念:

可靠性分析与设计时系统分析与设计、系统集成阶段应该重点考虑的问题。

可靠度、可用度、可维度、平均无故障时间、平均故障修复时间及平均故障间隔时间

可靠度计算:

系统故障模型 

故障千差万别,但是可以利用故障模型对其故障表现进行抽象

1、逻辑级的故障模型
2、数据结构的故障
3、软件故障和软件差错
4、系统级的故障模型

系统可靠性模型

1:时间模型:

最著名的时间模型是由Shooman提出的可靠性增长模型,这个模型基于这样的假设:一个软件中的故障数目在t=0是是常数,随着故障被纠正,故障数目逐渐减少,在此假设下,一个软件经过一定时间的调试后剩余故障的数目可用下面的来估计

2:故障植入模型

其目的是以程序的错误数作为衡量可靠性的标准

3:数据模型

在数据模型下,对于一个预先确定的输入环境,软件的可靠度定义在n次连续运行中软件完成指定任务的概率

三、可靠性设计(系统配置方法)

1:冗余技术

冗余机制主要分为:结构冗余,信息冗余,时间冗余,冗余附加

 

防止故障导致系统失效,两种技术: 
1)、故障掩蔽 
防止故障造成差错

2)、系统重组 
防止差错导致失效

这两种技术都建立在资源冗余的基础上。如前所述,资源冗余包括 硬件冗余、软件冗余、时间冗余和信息冗余。

(1)硬件冗余

硬件冗余最常用的是三模冗余(TMR),三个相同的模块接收三个相同的输入,产生的三个结果送至表决器。表决器为多数表决,一个故障,另两个正常,则输出正常结果。显然,正常的概率更大。

(2)信息冗余

信息冗余指的是在数据中附加冗余的信息以达到故障检测、故障掩蔽或容错的目的。 
应用最广泛的是 
1、海明校验码 
2、奇偶校验码(CRC)。

冗余技术中最常用的两种方法是重复线路和备份线路。重复线路指并联,双保险;备份则是失败还能补救。

自检常配合冗余一起使用。

2:容错技术

软件容错技术中如果遇到故障一般采取两种策略进行恢复:前向恢复策略和后向恢复策略

1)单机容错

(1)、自检

系统在发生非致命性故障时能自动发现故障和确定故障的性质、部位,并自动采取措施更换和隔离产生故障的部件。

 (2)、冗余

2)双机热备份

一种软硬件结合的较高容错应用方案。由两台服务器和一个外接共享磁盘阵列柜、双机热备软件组成。磁盘阵列卡非必须,可以在这两台服务器中采取RAID(独立冗余磁盘阵列)卡来代替。

双机热备份方案中,操作系统和应用软件安装在两台服务器的本地磁盘,而数据则通过磁盘阵列集中管理和备份。一台服务器出现故障,另一台顶上,实现服务不间断。

双机热备份采用“心跳”方法保证主系统与备用系统的联系。

双机热备份根据两台服务器的工作方式,有3种不同模式:

(1)、双机热备

一台工作,一台时刻准备着。数据同时往两台机写入,保持同步。一旦工作机出现故障,备机通过软件自动或手工切换。
使用最普遍的方式。但由于备机可能长期空闲,浪费。

(2)、双机互备

两套相对独立的应用分别在两台服务器上运行,彼此互为备机。其中一台出现故障,则另一台可以将对方的应用接管过来。
服务器性能要求高。

(3)、双机双工

集群一种形式。两台服务器均处于活动状态,同时运行相同的应用(区别于双机互备,双机互备的应用是不同的),负载均衡,互为备份。
通常磁盘柜存储技术、WEB服务器、FTP服务器应用较多。

3:服务器集群

集群(Cluster)是由两台以上节点机(服务器)构成的一种松散耦合的计算节点集合,为用户提供网络服务或应用程序(包括数据库、Web服务和文件服务等)的单一客户视图,同时提供接近容错机的故障恢复能力。

1.集群的分类

(1)高性能计算科学集群:以解决复杂的科学计算问题为目的的集群系统,其处理能力与真正超级并行机相等,并且具有优良的性价比。

(2)负载均衡集群:使各节点的负载流量可以在服务器集群中尽可能平均合理地分摊处理,这样的系统非常适合于运行同一组应用程序的大量用户。每个节点都可以处理一部分负载,并且可以在节点之间动态分配负载,以实现平衡。

(3)高可用性集群:为保证集群整体服务的高可用,考虑计算硬件和软件的容错性。如果高可用性集群中的某个节点发生了故障,那么将由另外的节点代替它。整个系统环境对于用户是透明的。 

集群技术指一组相互独立的服务器在网络中组合成单一的系统进行工作和管理,从而提供高可靠性的服务。

大多数情况下,集群中的所有计算机拥有一个共同的名称,集群内任一服务都可被所有网络用户使用。

集群内各节点服务器通过一个内部局域网相互通信,当一个节点发生故障,该节点所运行的应用被另一个节点自动接管;如果一个应用服务故障,则该应用会被重启或被其他服务器接管。

三、备份与恢复

1、联机备份(热备)
2、脱机备份(冷备)

你可能感兴趣的:(软考架构师(10)——系统的可靠性分析与设计)