高性能计算机散热的另一种选择

当丹麦和瑞士的国家天气服务升级了他们的计算能力时,他们都转向通过开始使用换热器对超级计算机进行冷却。

现已证明,超级计算机无需用液体冷却。多年来, 在数据中心领域,已经开始使用换热器来为机架散热,逐渐减少通过CRAH单元冷却。

最近有报道显示,数据中心运维人员已经将CRAH视为数据中心风险因素。

水冷背门(RDHx)可以用于数据中心内高密服务器,可以满足机架功率在20 kW /小时或更大的功率,事实上,水冷背门是为这种超级计算机(高性能计算机)而准备。

(备注:水冷背门(门)(RDHx):简单的说水冷背门就是在机柜的后面安装一个有“冷循环的冷水板”。概述如下:机组主要由冷水分配控制器、背板热量交换器等,冷水源由机房公共冷水供应系统提供(冷水分配机组)内置热交换器、水泵、控制阀、及温度、压力、湿度等传感器获取精确的流量、压力、温度、湿度等数据。通过独特的算法,分别为冷却水的两级循环做精确的控制。从通过背板热交换器将服务器产生的热量最大限度地消除。)

随着机器学习软件开始进入企业、服务提供商的数据中心,机架密度越来越高,高密机架冷却是项重要的课题。机器学习算法需要巨大的GPU集群,故而,需耗费大量电能,因此数据中心功机架功率密度远远超出单机架3kW至6kW。

深度学习驱动数据中心功率密度逐步提高

RDHx系统是时为高密准备,提高业务效率,设备数量不多。某企业产品架构总监Mark Simmons表示:“教育,政府,特别是国防部门是RDHx的经典候选人。 “毕竟整个行业还不想被水包围着。“,这个想法是不是挺有趣的呢?

对于能耗较低的机架,RDHx系统可能不具有成本效益, 大多数数据中心每个机架仅使用3kW至6kW /小时。 即使它们每个机架使用10kW /小时,RDHx依然是昂贵的。

除热方面:

RDHx系统对强大的计算应用具有经济意义,因为它们在除热方面表现优异。

典型的RDHx系统是散热器式门,其连接到具有用于直接热交换的线圈或板的机架背面,或者用于冷却水或冷却剂。 这种散热方法非常有效,因为散热设备非常接近热源。” 因此,可以为该区域制冷设立一个独立房间,而不需要安装热/冷的通道。

他们是如此高效,劳伦斯伯克利国家实验室(LBNL)提出,如果数据中心全是高性能计算机,可以不用安装CRAH空调。 在10年前的内部案例研究中,根据服务器工作负载,冷却液温度和流量,服务器回风温度降低了10°F(5.5°C)至35°F(19.4°C)。 在这个例子中,48%的废热被去除了。

该技术在过去十年中有所改善。 事实上,“RDHx可以降低机架上80%的散热能力,而数据中心的能耗可以降低50%。”

技术进步

将RDHx系统添加到现有的机架是可能的。这种系统可以提供高达20kW /小时的冷却,使用在室温下将相变成气体的冷却剂,从而减少将液体引入数据中心的担忧。其他制造商也正不遗余力的为自己的机架设计水冷背门。 例如,富士通RDHx系统可以安装到包含高性能富士通CX400服务器的PRIMERGY机架上。将一个水冷背门安装到标准的19英寸机架上,只需机架深度够深,可以容纳其热交换器。

这不是唯一的改善之处。这种系统现场可更换使用液 ——通过液体交换来直接散热,而不是通过空气流。 “这样可以更快地消除热量并降低冷却需求。 这很简单。“

冷水背板在设计上,已经考虑到液体泄漏的问题。像双壳油轮一样,外壳中将会有任何泄漏,触发专利的泄漏检测系统发出警报。

在欧洲正在运行的数据中心中有的已经开始使用水冷背门系统,并预计今年秋季将在美国推出该系统。

制冷效率更高 运行速度更快

由于机架内的热量积聚,服务器运行速度较慢。 安装RDHx可以降低高密数据中心局部热点的问题。 设备可以以最大的速度奔跑,因为热量被消除了。

业内有些人建议RDHx系统可以提供额外冷却功能,允许服务器超速运行,从而提高处理速度。

气流,水或冷却液

最初,RDHx门通过连接到机架后部的大型散热器来被动地冷却服务器, 这些门依靠服务器内的风扇来消除热量。 大约在过去三年里,活动门使用内置风扇带走服务器的热量。

早期的系统和许多现有的系统,都是采用冷冻水来带走热量。 最近有一些是通过用40°C温水去除热量。 其他的依靠冷却剂,像流行的R-410A。 下一代RDHx系统可能会探索更高效的制冷剂。

总体效益

RDHx能够为高性能计算中心、单机架功率高的服务器机架提供良好解决方案,但它们对为密集型较低的计算环境具有一定价值。

通过有效地去除热量,这些冷却系统支持的密度增加,这有助于数据中心可以减少冷却设备占地面积。在使用RDHx系统时,数据中心可以将服务器填满整个机架。这样的情况,风冷系统是无法完成的。

通过使用该系统,数据中心可以更容易地分割物理空间。 例如,可以在数据中心内某区域集中整合高性能计算,在该区域使用RDHx系统进行冷却,在该区域无需安装CRAH单元。

事实上,RDHx系统比CRAH系统更有效率,性价比更高(针对高性能计算中心而言),更易于安装,并且可能允许数据中心机架继续增加设备。RDHx系统为高密区域的数据中心意义更大。

这种可以后期在机柜中增加高容量的能力,提升数据中心灵活性,特别是针对一些致力于满足当下对电力要求高的、建设年代较早的数据中心。

劳伦斯伯克利国家实验室(LBNL)几年前评估对换热器进行过评估。据报道,水冷背门在将冷冻水温度设定值高的的条件下,无需耗费过多电能就能充分发挥其良好性能。

根据其技术公告数据中心采用水冷背门机架冷却,“根据气候以及管道布置,RDHx设备可以消除冷水机组的能量,因为它们可以使用连接冷却的板式换热器的处理水 。维护包括从换热器的空气侧除去灰尘,并将水源保持在冷水机组中。

RDHx是否有效取决于调整系统以提供适当冷却量的能力。 调节制冷剂的能力提高了保护和效率。

RDHx不适合所有领域

这种冷却方式最适合高性能计算平台。 像Google,亚马逊和Network Appliance这样的大型商品化计算公司并不适用于这项技术,因为他们不需要高密度,快速的基础架构。 对于这些应用,“适合自己的”才是足够好的。

通常情况下,冷水背板需要硬管道连接到每个机柜门。 当托管客户迁出时,这就产生了一个问题,我们需要重新利用空间。“然而,今天的柔性管道可以简化这个问题,但不能不用管道。

业界专家担忧将液体引入数据中心带来的隐患是否远远大于其带来的优势。 例如,IBM冷水背板可容纳6加仑的水,并支持每分钟8至10加仑的流速。 灾难性的故障可能会使机架与地板下的布线发生巨大冲击。 为了避免这种可能性,业界人士专门为数据中心设计设备走廊,以清除故障发生后带来的水或冷却液。”

相比之下,国家实验室使用具有快速拆卸配件的柔性管道将RDHx系统的冷却水用于高架地板下方,可以在安装时,将管道架高,距离地面有一定的高度,不是直接贴在地面。

事实上,RDHx也使得运维服务变得麻烦。 “你必须打开一扇门才能进入每个机架,并在完成后将其关闭。”这是一个小小的不便,它为维护机架增加了两个步骤。

另一个问题是确保设备安全。 目前,基础设施设备系统需要维护,事实上,大部分数据中心都会为设备设立一间专门为设备放置准备的房间,使维护技术人员能够在不接触客户服务器的情况下完成工作,从而提高安全性。 目前,水冷背门无法做到这一点。

也有专家认为,一旦建立新的RDHx系统,它们几乎不需要维护。 因为该系统基本上是闭环系统。 您可以为机柜设立门禁,却依然可以对水冷背门进行维护。

冷却技术的未来

随着未来行业内开发出更新、更高科技的冷却解决方案时,RDHx对日常计算机操作的实用性会越来越少(现在用到日常的机会也不多)。 在不久的将来,可以将冷却技术直接应用到芯片。芯片制造商正在开发液体冷却芯片,从而更直接散发芯片产生的热量,实现更紧凑的板卡和服务器设计。

某厂商研发的液体冷却技术为已经直接应用到服务器上,消除服务器产生的热量的60%至80%。 这将冷却成本降低一半,并允许数据中心密度在250%和500%之间增加。 这些芯片中的水通常在40°C,但依旧可以提供充足的冷却。

目前,大学研究人员正在研究量子冷却。 德克萨斯大学阿灵顿分校的一个团队开发了一种计算机芯片,在室温下工作时,不用冷却液即可冷却至-228°C。 (以前的芯片必须浸泡在冷却液中才能达到这个目的)

(备注:量子冷却:一般说来,量子冷却的研究目标就是要降低量子态的平均能量,直至系统处于基态。研究组的理论合作者提出了一种量子冷却的新方法,通过引入一个辅助量子比特,实现与待冷却系统的控制耦合。通过对辅助量子比特的测量,实现待冷却系统高能量部分和低能量部分的区分。将高能量部分剔除后就可以实现系统的量子冷却,这就像一只量子的麦克斯韦妖可以轻而易举地除去量子态中能量高的部分,因此这种方法被称为麦克斯韦妖式量子算法冷却。)

为了实现这种高精尖的冷却技术,称为量子阱的电子滤波器被设计在芯片中。 这些阱很小,只有超冷却的电子可以通过它们,从而冷却芯片。 该过程处于早期研究阶段,但似乎将芯片能耗降低了十倍。

(备注:量子阱:基本特征是由于量子阱宽度(与电子的德布罗意波长可比的尺度)的限制,导致载流子波函数在一维方向上的局域化,量子阱中因为有源层的厚度仅在电子平均自由程内,阱壁具有很强的限制作用,使得载流子只在与阱壁平行的平面内具有二维自由度,在垂直方向,使得导带和价带分裂成子带。量子阱中的电子态、声子态和其他元激发过程以及它们之间的相互作用,与三维体状材料中的情况有很大差别。在具有二维自由度的量子阱中,电子和空穴的态密度与能量的关系为台阶形状。而不是象三维体材料那样的抛物线形状。)

执行清单

与此同时,在量子阱和液冷芯片变得普遍之前,高性能数据中心可以通过安装水冷背门来提高性能,增加功率密度,降低冷却成本。

为了帮助这些系统以最高效率运行,国家实验室建议服务器在机架中安装盲板,以防止热空气短路。 它还建议仔细检查风口地板布置,以确保空气被引导到需要的地方,并提高数据中心冷水机组温度设定值。 通过监控系统监测的数据对系统进行及时调整,能源监控系统对数据中心运维很重要。

有些专家认为,即使使用水冷背门时,依然要设计封闭热通道/冷通道,看起来挺合理的,事实上,对于降低能耗意义不大。使用RDHx可以充分降低服务器进风温度,即使不安装冷通道都可以达到同样的效果,根据国家实验室做的测试数据而来。通常,对于大部分正在运营的数据中心,CRAH单元依旧存在,为高性能计算设备增加RDHx系统。

安装RDHx系统后,首先要检查是否有缝隙。 根据国家实验室报告说,RDHx水冷门并不总是像机架那样紧密地配合。 用管道密封柜门周围的任何间隙,以提高效率,并测量在安装换热器之前和之后的机架进风温度。 还要监控通过系统的流量,以确保RDHx正常工作,并使液体流速和服务器温度相关联。 确保每个门处的冷却液温度高于露点,以防止冷凝,并定期检查系统是否有泄漏。

结论

对于数据中心发展而言,RDHx可以是数据中心硬件的战略部分,也可以是较小问题的昂贵解决方案。 在考虑RDHx之前,请仔细考虑自身当前对未来的需求,并了解您通过使用系统达成的目标是什么,再决定RDHx是否适合您现在或将来的组织。

本文转自d1net(转载)

你可能感兴趣的:(高性能计算机散热的另一种选择)