随着HPC行业共同采用exascale,能效的重要性以及最大化冷却技术的效率和性能 , 对于确保HPC资源的成本的减少起到了至关重要的作用。
为了实现亿亿次计算的目标,许多制冷公司正在探索优化和创新方法,为下一代HPC系统重新定义冷却架构。在这里,一些着名的冷却技术提供商就HPC冷却技术的现状和未来前景发表了看法。
在过去的5到10年中,冷却技术的最大发展是什么?
Motivair总裁兼首席执行官Rich Whitmore 认为,冷却系统迁移到源头,更具体地说,在机架级别,是冷却技术的最大变化之一。波士顿高级FAE的Tom Michalski说:“这是由不断增加的服务器和芯片驱动的热量密度以及高速和低速服务器工作负载之间的动态/快速转换,每分钟一次。”
“在过去的5到10年里,我们一直在与CoolIT Systems合作使用模块化,易于使用的直接接触液体冷却(DCLC)。我们的解决方案的优势:例如波士顿ANNA Pascal–最近在ISC学生集群竞赛中作为液体冷却集群的一部分,是我们能够在各种环境中最大化服务器性能和功率效率。
Iceotope的创始人Peter Hopton 专注于高级冷却剂的开发 - 特别是工程氟化物和液体氟塑料及其对HPC市场的影响。
Peter Hopton 说:“大型开放式浴缸每个CPU可以使用大约5到10升的冷却液(通常是油),而在Iceotope我们一直在这个领域进行创新,2012年,我们每个CPU的容量为2升,现在我们的容量为0.8升每CPU。有些项目使用液体冷却优化电子设备,例如我们在EuroExa项目上的工作,每个四核CPU节点0.32升。”
虽然这种冷却解决方案在过去被认为是昂贵的,但创新将大大降低这种成本。
Hopton补充道:“在这些产品中,我们可以拥有一个低成本,可维修,安全的系统,即全液冷,占地面积小,可以接受高入口温度,从而消除冷水机组。这带来了更低的基础设施成本和更少的电费。”
在过去的十年里,我们开始看到采用水冷却,在这个阶段,我们的绝大多数多机架系统都达到了这一点。最近我们开始看到“节点”水冷却。伯明翰是OCF首次安装这项技术,或者至少是第一个水冷节点的学术装置。
自2010年以来,液体冷却产品的大批量生产已经成为一个成熟的技术,到目前为止,少数供应商已经掌握了可靠地制造高质量,低成本液体冷却组件的能力。将液体冷却从新颖性转变为普遍接受的产品类别,现在正在考虑用于大规模数据中心部署,以提高效率,增加密度并提高性能。
您如何帮助用户选择正确的技术?
关于特定技术的建议,Michalski表示,大部分选择都取决于客户的偏好和要求:“有些客户可能希望将冷却效率保持在最高水平,重新利用服务器组件产生的热量所以他们会考虑在他们的环境中使用一种液体冷却技术。这确实涉及冷却设备的初始成本较高,如果他们的空调机组可以应对,那么一些客户不会接受选择标准的空气冷却方法。”
采用推荐方法的事项包括数据中心的PUE或效率目标,芯片级功率密度,机架功率密度,机架可用功率,气候和环境条件,热量捕获目标,能源再利用,人工费用,现有的基础设施和其他。
虽然Motivair的政策是客户要求必须先行,但Whitmore还认为专家意见有助于强调HPC基础架构内部增长的需求:每个客户都需要评估他们当前的数据中心负载并预测未来这些负载的位置。
事实上,大多数数据中心运营商和所有者都不知道他们的密度将在两到五年内在哪里,这证明了他们对高度可扩展和灵活的冷却解决方案的需求。冷却系统应该是服务器和机架不可知的,允许在设施的整个生命周期内进行多次刷新。
OCF的Dean指出了理解需求的重要性,同时也强调了为未来的潜在升级做好准备的必要性,因为许多用户正在采用更密集的计算解决方案:“自从我开始以来,我们提供的机架为10到15千瓦的解决方案,这已迅速变成每机架20到25千瓦。现在我们正在研究下一代处理器,我们正在研究一个30千瓦的机架,这只会向上发展。基于GPU的集群等高密度系统的可能性可能会在极端的例子中将其推到70千瓦左右。因此,了解用户的要求以确定哪种技术适合特定安装非常重要。从另一方面来说,它取决于TCCO和数据中心可用的总电量。如果您的建筑物中有能量或总放大器数量,例如,如果您可以尽可能接近PUE驱动PUE,那么您将有更多的能量用于HPC系统。采用这些更新颖的方法之一的前期投资更高,这是采用的挑战之一,因为数据中心通常与其中的实际位分开采购和资助。新设计的成本更高,但这可以通过冷却和数据中心基础设施生命周期内的效率节省来抵消。”
最大限度地提高效率并确保最低PUE的最佳方法需要从采购数据中心到设置,基础设施和冷却技术选择的全面方法。
Dean总结道:“随着你越来越集成并开始关注温水冷却并最终看到你可以利用来自节点的水做的事情,那么它需要在整个业务中更紧密地整合。”
您认为未来五年内冷却技术的最大变化是什么?
所有这些技术面临的挑战是数据中心移动速度比硬件移动慢很多,就如你每两到五年更换一次你的IT。有很多例子我们将这个全新的套件提供给20到30年的数据中心基础设施。
基于节点或直接接触的水冷却方法与现有的数据中心基础设施相结合相当简单,因此他预计这将是未来几年具有很大潜力的技术:在HPC中我们更加努力,我们使用更多的电力,我们比其他行业产生更多的热量,所以在过去五年我们很容易采用水冷门,我现在看到技术进入企业,然后HPC开始转移到下一个生成冷却技术,如“节点”水冷却。
根据波士顿的Michalski的说法是:“对高密度服务器的需求不断增长,服务器组件(如CPU和GPU)的热设计功率不断增加,使得标准风冷工作不再有效。
今天的服务器可以输出超过几千瓦的热量,然后通过空调进行冷却 - 这是对电力的巨大浪费,对环境来说不是好事。这就是为什么大多数新数据中心采用液体冷却技术改进液体到液体换热器的原因。这样,服务器组件产生的热量就会转移到水中,然后可以重新用于加热办公室,从而降低运营成本,对环境更有利。”
这些系统将拒绝以前在数据中心中从未见过的热量。惠特莫尔说,大数据的趋势将继续推动高性能计算机和其他密集的IT设备应用于预先存在的企业和托管数据中心。
本文首发于HPC365官网