一个 SCSI 硬盘的平均故障间隔时间〈MTBF, Mean Time Between Failure〉,都在数万
小时以上,在正常使用情况下,要坏掉一个硬盘已经很不容易了;在同一系统内,两个磁
盘驱动器同时坏掉的机率,更是微乎其微。但是,如果把磁盘驱动器放在布满杀手的环境
内,就另当别论了。
构建一个磁盘阵列储存系统,可靠度远比速度来的重要。因此,不但要选一个高性能
的阵列控制器,更要慎重地挑一个高可靠度的磁盘阵列柜。因为,宝贵的数据不是存在数
组控制器里,而是存放在磁盘驱动器里;而磁盘驱动器又是放在磁盘阵列柜内。所以,要
仔细挑选一个可靠的磁盘阵列柜,来当磁盘驱动器的神盾,千万不要挑一个磁盘驱动器杀
手!
磁盘阵列柜的设计挑战
由于磁盘驱动器的技术以及传输接口的技术不断的发展,磁盘阵列系统的设计随时都
面临新的挑战,以便符合与日俱增的要求。一个优质的磁盘阵列柜,必须在设计阶段,就
要考虑到其规格必须符合更大容量、更高转速磁盘驱动器的需求,提供:
稳定、高容量、容错的电源供应系统
可靠、高性能、容错的冷却系统 能够克服震动的机械结构 支持SCA2 热抽换接头之被动背板 一体成型、无主动组件之磁盘载盒 数组柜环境监控与警示功能 直接热抽换且方便的维护操作功能 最佳的空间利用
以下我们就针对这些规格和功能,提供一些建议。
稳定、高容量、容错的电源供应系统
如果各位仔细看看磁盘驱动器的规格书,您会发现磁盘驱动器马达启动时,需要很大
的启动电流〈约2A〉,约为平常读写时〈约0.66A〉的 3 倍;磁盘驱动器在 SEEK 时,需
要很大的瞬间电流〈约2.1A〉,约为读写时〈约0.66A〉之 3 倍。因此,电源供应系统必
须能提供足够、稳定之瞬间电流,否则会造成磁盘驱动器无法启动,甚至造成数据写入错
误〈此为导致 RAID 磁盘驱动器被 RAID 控制器判定为 Down,但磁盘驱动器送回原厂测
试却无故障之原因〉。当磁盘驱动器转速越来越快,SEEK 速度也越来越快时,电源供应器
必须提供足够的容量,以因应将来扩充的需求。
具备容错,热抽换、负载分享之双电源供应器,是不可或缺的,更重要的是,如果电
源供应器发生故障,要能不必下螺丝就能热抽换电源供应〈使用螺丝起子解螺丝会造成震
动及摇摆,会损害工作中之磁盘驱动器〉。
有了双电源供应器,更要具备两组电源输入,一个接到市电,一个接到 UPS。如此,
无论突然断电,或 UPS 故障,都不会造成 RAID 当机。
好的电源供应系统,还须具备交流电压与频率自动选择及调整,以适用不同电压及频
率,更重要的是,要能克服电压及频率不稳之状况。在用电尖峰时段,市电电压可能降到
100伏特以下,而在非用电尖峰时段,市电电压可能升到120伏特以上,因此电源供应系统
必须能够容忍这些电压变化,提供磁盘驱动器稳定的电压和电流,否则可能造成磁盘驱动
器故障,甚至数据写入错误。磁盘阵列柜的电源供应系统,最好能够提供从85到260伏特无
段自动调整,如此,无论插到哪种插座,市电品质如何变化,都不会影响磁盘阵列的功能
。
可靠、高性能、容错的冷却系统
在许多案例中,我们发现冷却系统设计不完善的磁盘阵列柜,只能装设7200转的磁盘
驱动器,若使用10,000 转的磁盘驱动器,系统就会过热。现在,Seagate 已经推出
15,0000转的磁盘驱动器了,如何挑选一个具备可靠、高性能、容错之冷却系统的磁盘阵列
柜,就更显得重要了。
一般磁盘阵列柜之设计,在每个磁盘驱动器载具上加装小风扇,整个系统再装数个大
风扇,用边吸边吹的方式散热,不但散热效果不好,而且是产生磁盘驱动器故障的潜在因
素:它带来的危害有以下这些:
产生大量气流将粉尘吹入系统,污染磁盘驱动器及风扇旧碓斐晒收稀? 采用一般PC用小风扇,且数量多〈转动机械零件越多,故障机率越高〉,系统可靠度
因而巨幅降低?/li>
一旦有一个小风扇故障,相关磁盘驱动器便无法获得足够散热而故障。 一个优质磁盘阵列柜之冷却系统的设计,必须完全符合热力学理论之全方位冷却:热
传导、热对流及热辐射之三相散热方式,才能更有效率、可靠度更高:
磁盘驱动器载盒必须采用黑色、高导热系数之金属〈如铝合金〉,并与载盒紧密接触固定
,如此可以最快最有效地将磁盘驱动器之热能传导至整个载盒,然后以最大辐射面积与最
佳辐射颜色〈黑色〉,将热能辐射至机体内空气中,再以中央系统涡轮抽风机将热空气以
对流方式排出
磁盘驱动器载盒不能使用风扇,及其它任何主动组件,以免本身故障而损及磁盘驱动
器
系统采用中央抽风排热设计,须使用两个以上之工业用涡轮抽风机〈不可用一般PC用
风扇〉,以提高可靠度与排热效率。由于工业用涡轮抽风机本身可以防止轴承被粉尘污染
,且抽气效率极高,可将机体内热空气抽出,并在机体内产生很大的相对低压,冷空气便
可由经过精密设计之对流孔,均匀地进入机体内,达到最佳对流散热效果
中央系统涡轮抽风机必须具备热抽换功能,且能够自动温控转速,以达到最佳之排热
性能与能源使用效率
只需一部涡轮抽风机就足以维持系统散热之最低限度。工业用涡轮抽风机之出气口面
积只有一般PC用风扇1/10,因此即使有任何风扇因故停止运转,也不致影响整个系统之热
对流结构.
防震机械结构
由于磁盘阵列的特性,当存取阵列中的数据时,阵列中所有的磁盘驱动器的磁头,都
几乎在同时,往同一个方向SEEK,又几乎同时在相同的位置煞车,其惯性动量非常之大。
因此造成很大的震动问题。如果磁盘阵列柜的机械结构不能克服这些震动问题,轻则造成
Re-Seek,严重的话,会导致碟面受损,数据遗失。
一个好的磁盘阵列柜的机械结构设计,必须克服上述震动问题:
磁盘驱动器以刚性方式固定于磁盘驱动器载盒〈不使用任何塑料或其它韧性支柱〉:
塑料或其它韧性支柱会变成震动的放大器,让磁盘驱动器震得更厉害。刚性方式固定,可
以透过经由模态分析〈Model Analysis〉设计之阵列柜,避开自然共振频率〈Natural
Resonance Frequency〉以及强迫共振频率〈Forced Resonance Frequency〉,将系统震
动降至最低,得到最佳性能,不会因震动造成磁头偏移而需重新寻轨定位 (re-seek)。
磁盘驱动器载盒必须为一体成型之刚性合金制造,且紧密稳固地固定在机箱内。如果
是以卡榫或螺丝方式接合,其防震效果可想而知,非常不理想。
支持SCA2接口的被动背板
前面提到,磁盘阵列系统最重要的是可靠度,因此所有具备主动组件〈包含电子组件
和机械组件〉都必须安装在可热抽换的模块上,以便发生故障时可以随时更换。一般来说
,被动组件是不会坏的,除非暴力相向。
磁盘阵列柜中,除了背板〈Backplane〉之外,其它所有模块都可以是可热抽换的。
因此,背板上不可以有任何主动组件,以免有任一组件发生故障,必须停机更换,而且,
一般来说,使用者是无法自行更换背板的。
磁盘阵列柜背板的另一个重要规格,是必须使用SCA2 接头,以支持热抽换〈Hot-
Swap〉。我们都知道,把磁盘驱动器从系统中拔出或插入,会造成很大的突波讯号,可能
影响正在工作的Bus,甚至损坏磁盘驱动器接口组件,因此必须要有特殊的设计,来降低并
防止突波可能造成的损害。
SCA2 接头的设计,是采用长、中、短等不同长度的接脚,将前期电源和地线、主电源
、总线信号线等,依照先后顺序接触〈插入时〉或分离〈拔出时〉,如此可以将磁盘驱动
器线路缓慢充电,将其电位提升以降低其与总线间之电位差,以减低突波讯号,保护电子
接口组件以及避免干扰工作中的总线。
一体成型,无主动元件的磁盘载盒
在实际的案例中,我们常发现用户把磁盘载盒送修,因为磁盘载盒蜂鸣器一直叫、风
扇卡住不转了...,当然,磁盘驱动器也可能因此而毁了〈因为风扇不转而造成磁盘驱
动器过热,唉,水能载舟,亦能覆舟〉。这就是磁盘载盒设计不良所造成的。
一个好的磁盘载盒设计,必须没有使用任何可动机械或主动电子组件,亦即,不要有
小风扇,也不要任何控制线路。如此,磁盘载盒本身就是金刚不坏之身,不会造成故障,
更不会成为磁盘驱动器杀手。
同时,磁盘驱动器的固定方式,也是一门学问。除了前述要将磁盘驱动器直接且紧密地固
定在磁盘载盒上,以达到热传导散热之外,磁盘驱动器最好是倒挂式固定。如果采取一般
正面式固定,则磁盘驱动器所产生的热,传导至磁盘载盒之后,又辐射出来产生热空气,
再往上升,刚好用来烤磁盘驱动器的线路板和组件〈本是同根生,相煎何太急?〉,会加
速组件的老化。如果采取倒挂式固定,则传导到磁盘载盒的热,会辐射到磁盘驱动器上部
空间,由对流气流带走,不会烘烤到磁盘驱动器线路组件。
为求达到最佳热辐射散热效果,磁盘驱动器载盒之表面,最好漆上黑色,因为黑色是
最容易吸收热能,也是最容易辐射出热能的颜色。磁盘驱动器载盒的材质,必须具备高导
热系数的特性,如铝合金辨识理想的材料,导热系数高,加工也方便。
而如前述,磁盘驱动器载盒必须是一体成型的刚性金属合金制造,以达到最佳震动克
服性能。我们非常不建议采用组合式磁盘载盒,一般这些组合式磁盘载盒,都是由一个架
子和一个盒子组成;架子上有风扇和热抽换控制电路,固定在机壳上,再接Cable;磁盘驱
动器则装在盒子,透过转接接头连到架子上。如此,不但造成前述震动问题,而且一旦架
子的风扇或电子组件故障,就必须停机更换。
阵列柜环境监控与示警功能
磁盘阵列柜中所有主动组件或机械组件,以及内部环境温度,都必须能够监控且有适
当的警示和通报功能:
阵列控制器必须能支持S.M.A.R.T.,以便预测可能发生的磁盘驱动器故障。妥善利用
S.M.A.R.T. 功能,能够预先准备好备用磁盘驱动器,以便在第一时间把不稳的磁盘驱动
器更换掉,如此可以把风险系数降至最低。
环境状态监控器必须能随时监视机柜内部温度,以及控制排设装置转速,以达到最佳
冷却及能源利用效率。同时异常状况必须以两种以上方式通报,至少包含在数组柜本身的
声音与视觉灯光警示,以及远程通报。
电源供应器的输入与输出,也必须随时监控。同时异常状况必须以两种以上方式通报
,至少包含在数组柜本身的声音与视觉灯光警示,以及远程通报。
另外,非常重要的一点是,环境监视控制器本身也是主动组件,也可能发生故障,因
此,磁盘阵列柜的环境监控器,必须能够支持热抽换功能。
直接热拔插且方便的维护操作功能
在磁盘阵列柜中,所有可能发生故障的组件,包括主动电子组件、可动机械组件,都
必须能够支持热抽换功能。不能抽换的组件,就必须是不会故障的被动组件。
具备可热抽换功能,大家都知道,但是,要如何才能更方便、更安全地作热抽换,可
是一门学问。一个提供方便维护、安全热抽换的磁盘阵列柜,至少需具备以下功能:
所有可热抽换的组件,都必须能由外部直接抽换,而不必先移除其它组件,如此才不
会造成任何风险。试想,如果一个风扇坏了,你得先把一个电源供应器移除,才能抽换坏
的风扇,你必须保证剩下那个电源供应器不会出问题,否则,你就挂了。
所有的热抽换动作,都不需要将手或工具伸进机体内部,去拆解螺丝或拔接头。把工
具伸进机体内,可能误触线路造成短路,整个系统可能因此损坏或当机;把手伸入机体内
,可能会触电,人一触电,反应是无法预期和控制的,可能会把整个磁盘阵列柜甩到五公
尺远。
所有的热抽换动作,都不需要使用任何工具。在操作中的系统上使用工具是非常危险
的,用力转螺丝会造成机体摇动,磁盘驱动器会受损;金属工具也可能会造成短路。
所有可热抽换的组件,都不可使用螺丝固定,因为如果不小心,螺丝很可能会掉进机
体内,造成短路。如果一定要用螺丝,也要使用具有卡榫的螺丝,在解下后仍然能够安全
地卡在组件上,不会有脱落的危险。
最佳的空间利用
在机架式系统中,空间的利用以及散热气流的需求,是非常重要的因素。同样可容纳
七台磁盘驱动器,一个只要占 3U 空间的磁盘阵列柜,当然比一个要占 6U 空间的磁盘阵
列柜要来得有效率。
要能达到最佳化的空间利用,除了磁盘阵列柜的体积要小之外,散热气流的需求也是决定
性因素。一个只应用到单向对流散热方式的磁盘阵列柜,需要很大的气流需求才能达到散
热效果,因此既使体积小,也不能在一个机架中装设太多磁盘阵列柜,否则散热气流就会
不够。如果磁盘阵列柜采用高效率的三相散热〈热传导、热辐射、热对流〉系统,就只需
要小量的气流,便足以发挥散热效果,因此可以在机架中高密度地装置磁盘阵列柜,大大
地提高空间使用效率,当然也大大地降低了成本。这对大型企业、ISP、以及主机代管业者
来说,是非常有经济效益的规格。
保护您的数据,要从保护您的磁盘驱动器开始;要保护您磁盘驱动器,就要挑一个可
靠、稳定的磁盘阵列柜。要知道您的宝贵数据,不是存在 CPU,也不是存在主机板,也不
是存在控制卡,而是存放在磁盘驱动器里。所以,挑选磁盘阵列柜,是件很慎重的事情,
千万不要讨价还价,而是要很挑剔地找一个磁盘驱动器的神盾,可别找一个杀手。
|