1、reliability
人们用两个标准来衡量dependability:reliability(可靠度) and availability(可用度)
reliability:连续工作的时间,可以用mean time to failure(MTTF)来表示。
failure rate=1/MTTF,而failure rate的单位是FIT(failures in time)
FIT定义为在billion hours(10^9小时)的时间段内failure的次数。
计算一个系统的failure rate就是将它各个部件的failure rate加起来,这样做有一个前提,
就是假设system的错误的几率与它的使用时间无关。
计算一个系统的MTTF步骤如下:
A、计算每个部件的failure rate
B、将所有的failure rate加在一起,得到该系统的failure rate。
C、取该系统failure rate的倒数,就是该系统整体的MTTF。
MTTR(mean time to repair):就是从failure中恢复的时间。也就是修好系统的时间。
MTBF(mean time between failures):两次failure的时间间隔。
MTBF = MTTF+MTTR
2、availability
对于nonredundant system的availiability公式为:
availiability = MTTF/(MTTF+MTTR) = MTTF/MTBF
3、对于一台服务器来说,fan和power supply的MTTF一般会最小,所以需要redundancy。
比如使用双电源,冗余风扇等等。那么,如果将single power supply改为
redundant power supply对于power supply的dependability会有怎样的影响呢?
假设power supply的MTTR是24hours,power supply的MTTF是200,000hours 。
先算redundant power supply的failure rate=(2/MTTF)*(MTTR/MTTF)
2/MTTF表示两个power supply的failure rate;
MTTR/MTTF是当一个power supply坏掉后,而一个也坏掉的几率。
redundant power supply的MTTF=1/failure rate=MTTF^2/(2*MTTR)=4150*200,000hours
很明显,它的MTTF提高了4150倍。
4、上面的例子中,加了一个power supply后,power的MTTF增加了4150倍,那么它对整个
服务器的dependabiltiy的影响是什么呢?
有两种方法可以计算:
A、将这台服务器的各个部件的failure rate加在一起,然后取倒数就是这台服务器整个的
MTTF,然后将新的MTTF除以旧的就是它提高的程度。
B、就是利用Amdahl's Law(不了解Amdahl's Law的读者,可以先学习一下它的定义,
在该篇文章中没有详述),假设在单power时,power的MTTF占整个server的20%,则会有
如下公式:
speedup=1/(1-20%+20%/4150)=1.25
就是说,通过增加了一个power,使该server的dependability提高了1.25倍。
我的新浪的blog:http://blog.sina.com.cn/treeintherain,有更多文章。
(完)
[此为原创,转载请标明出处,谢谢!]