戴尔 PowerEdge R910 特有的电源可用性功能

 下帖作者是 R910 系统主管工程师 Ahsan Habib 撰写。

 

 

人们对服务器的要求不外乎高可靠性、高可用性和高服务性。戴尔 PowerEdge R910 的优点不仅包括 Nehalem-EX处理器和芯片提供的 RAS 功能,还包括整个系统级的创新和最佳客户体验。戴尔没有将这些功能笼统地推向市场,而是将其内置在设备之中,以便在电源或部件发生故障时,有效地保护客户及其资产的安全。

 

 

在这里,我想向大家介绍一个能在突然出现电源故障或意外卸载时提供候补可用性的功能。R910 基于配置支持三种不同的备用电源模式(1+1、2+1 和 2+2)。备用电源模式可以在出现电源故障/卸载的情况下保持系统继续运行;但如果在发生电源故障后、尚未更换电源之前,又紧接着发生了另一个意外事件,那么剩余电源可能就不够用了。

虽说紧接着发生两次故障的几率很小,但也并非不可能,在系统已经没有后备电源的情况下又发生某种部件故障,可能导致灾难性的后果。例如,刚刚换上的硬驱发生损坏,导致流经电流过大,就可能导致服务器故障,因为发生供电设备故障之后,系统已经转入无后备电源的状态了。但是 R910 有独特的可用性功能,即使发生了这种情况,也能维持系统的运行。

下面粗略地介绍一下其工作原理。配电板上安装有电流监控电路,随时读取每个供电设备提供的电流。当累积耗电量超过了单个电源供电量 (1+1) 或双电源供电量(2+1 和 2+2)时,则启动保护逻辑。若出现一个供电设备故障 (1+1) 或 2 个供电设备故障(2+1 和 2+2),负载已超过了剩余供电量,则触发系统限制。如下图所示举例,在带 4 个 1100W 供电设备的 2+1 备用电源模式中,负载接近 2200W 就会触发保护逻辑,一旦出现任何供电设备故障,若耗电量超过 2200W,就会立刻触发限制,将耗电量控制在 2200W 的范围之内。如果负载在 2200w 之内(100% 容量范围),则系统不进行限制。

 

 

如果先发生电源故障,而后耗电量增加至最终超过剩余供电量,保护逻辑也会按照相同的方法运作。通过限制系统,将功耗控制在剩余电量范围之内。一旦故障解除或消失,若消耗电量在剩余供电量范围之内,则系统将退出限制模式,恢复正常工作。

简言之,虽然这只是一个小小的创新,只能解决一个边界问题,但只要它能真正有效地预防哪怕只是一台服务器的故障,那么我们在对其进行设计、执行和验证时所付出的努力都是值得的。

 

更多精彩文章请关注:

戴尔技术社区

你可能感兴趣的:(服务器,dell,休闲,电源与散热,Nehalem)