系统可靠性(摘抄)

1、系统可靠性概述
常见的评价系统可靠性的指标为:
(1)平均无故障时间(MTTF)
MTTF = 失效率的倒数,串联系统的失效率等于各部件的失效率之和
(2)平均故障修复时间(MTTR)
(3)平均故障间隔时间(MTBF)
(4)系统可用性
2、系统可靠性分析
3、冗余技术
分为结构冗余(静态冗余(屏蔽冗余),动态冗余,混合冗余),信息冗余和时间冗余
其中静态冗余是指模块的互相验证,使错误模块的输出被屏蔽,动态冗余是指有后备模块存在

提高系统可靠性的技术可以分为避错技术和容错技术
4、软件容错技术
N版本程序设计,不同版本的程序并行执行,需要解决同步问题,通信问题,表决算法等,也包括不同计算机环境等。属于后向恢复,不适合实时系统,是一种静态的故障屏蔽技术
恢复块方法,主块先进行运行,如果没有通过验证,则转入后备块运行。依赖于验证测试。
防卫式程序设计,就是在程序中插入断言等检查错误的代码,提前发现错误,进行估计和恢复。

也可以采用一致性检查,提前预测运行结果然后和预测值进行比较
能力检查是诊断程序检查程序中各个系统,如一次检查每个内存单元的读写能力

5、双机容错技术
双机热备模式,一台服务器处于工作状态,另一台同步的更新数据,保证短时间内可以完全恢复
双机互备模式,两台服务器同时运行,承担不同的应用,当一台服务器出现故障时,迅速由另一台接管其所负责的应用。
双机双工模式,和集群技术类似,实现负载均衡和互为备份。
双机容错工作下,两台服务器要有心跳通信链路。

6、集群技术
集群是一个松耦合的计算机系统,强调负载均衡,通信和并行计算
负载均衡的技术实现主要有以下几种:
(1)基于特定软件的重定向。如服务器接收到一个URL,则发送http中的location指令让浏览器自动重定向。
(2)基于DNS的负载均衡
(3)基于NAT的负载均衡
(4)反向代理的负载均衡

进程迁移技术:在进程运行时,源节点和目标节点进行目标节点之间转移进程。(当然进程在转移过程中必须被停止)

你可能感兴趣的:(故障)