一文详解深度学习冷板式液冷散热技术规范及要求

一文详解深度学习冷板式液冷散热技术规范及要求_第1张图片

深度学习 | 东数西算 | 液冷散热

数据挖掘 | 数据分析 | 高性能计算

随着深度学习、东数西算、医药研发、数据分析、数据挖掘、遥感测绘、高性能计算等技术的快速发展,数据中心的创建与日俱增,传统的风冷散热方式已经不同满足数据中心散热的需求,冷板式液冷散热逐渐出现在人们的视线中。

注:由于篇幅有限需要更多详细资料,请在公众号末尾留下您的邮箱,小编会将PDF文件发您邮箱,共同进步。

气候变化正给人类生产生活带来日益严峻的挑战。为在促进经济繁荣的同时保护地球,联合国制定了 2030 可持续发展目标,将降低能源碳强度,采取紧急行动应对气候变化及其影响作为重要内容,推动全球各国提供更多资源和更明智的解决方案。2021 年底发布的《第五届联合国环境大会续会的部长级宣言草案》再次强调,推动绿色转型,减少碳和非碳温室气体排放,实现可持续发展目标。

中国高度重视落实联合国 2030 年可持续发展议程,并基于推动实现可持续发展的内在要求,将生态文明建设明确为国家战略,宣布了“碳达峰”和“碳中和”目标,让绿色低碳成为各行业转型升级和实现高质量发展的重要方向。在全球落实可持续发展行动,中国积极推进生态文明建设的进程中,5G、人工智能、物联网等新技术的快速普及应用,在为各行各业高质量发展提供前所未有新动能的同时,也让作为新型基础设施的数据中心规模不断扩大,能耗持续高速增长。据相关估算,全国各类型数据中心用电量总和已约占全社会用电量的 1.5%-2% 左右,且机柜规模仍保持高速增长态势。参照美国劳伦斯伯克利实验室对美国数据中心产业发展相关研究估算,在不采取相关措施的情况下,数据中心总用电量有可能翻倍甚至更高。

面对不断增长的能源消耗与经济社会可持续发展的双重压力,加速数据中心运营模式的绿色转型成为当务之急。2021 年 5 月,国家发改委等四部委联合发布《全国一体化大数据中心协同创新体系算力枢纽实施方案》,将绿色低碳列为基本原则,强调通过创新技术全面提高其能源利用效率;同年 7 月,工信部印发《新型数据中心发展三年行动计划(2021-2023 年)》,明确提出新建大型及以上数据中心电能利用效率(Power UsageEffffectiveness,PUE)降低到 1.3 以下。2022 年 1 月,国务院印发“十四五”数字经济发展规划,随后国家发展改革委会同相关部门推进“东数西算”工程实施,强化数据中心绿色发展要求,强调大型、超大型数据中心 PUE 降到 1.3 以下,并在给多个算力网络国家枢纽节点启动的复函中,都将 PUE 指标控制在 1.25 以内。

在政策拉动以及数据中心降本增效等自身需求的驱动下,整个 ICT 产业积极采用创新技术和模式,围绕降低 PUE 这一关键指标,通过推进基础设施智能化、创新和采用制冷散热技术,以及提升能效与供电密度等系统化措施和多元化的技术与解决方案,综合性地创新数据中心高效节能体系,推动数据中心全生命周期降耗增效。

一文详解深度学习冷板式液冷散热技术规范及要求_第2张图片深度学习冷板式液冷解决方案

 

众冷板液冷生态伙伴以“创造改变世界的技术,改善地球上每个人的生活”为宏旨,在不遗余力地通过将可持续纳入产品设计、生产、使用全生命周期,系统化减少碳足迹的同时,聚力携手更广泛的产业伙伴开放创新,基于在数据中心可持续发展上构建起的完备解决方案矩阵,重点聚焦的数据中心机架电源设计、先进冷却技术和数据中心智能节能三个垂直领域,充分应用芯片、服务器、机架、数据中心四个水平方向的技术方案和丰富案例,继续深入实践,全方位、立体化推动数据中心不断实现能效优化和低碳转型。同时,还将继续与各界伙伴协同推进数据中心功率密度演进、液冷技术应用与设计等标准和规范建设,助力构建长效机制,引导数据中心加速迈向高效、清洁、集约、循环的绿色发展新纪元。

由英特尔推出的《绿色数据中心创新实践——冷板液冷系统设计参考》是产业生态伙伴紧密合作、联合创新的重要成果之一,内容涵盖液冷一次侧及二次侧整个链路的设计,旨在与冷板液冷生态伙伴及潜在使用者分享对于冷板液冷技术关键部件设计选型的考量,其付梓发布也是要通过面向更广泛的产业伙伴展现冷板液冷技术关键部件的研究进展,来共同促其标准化,进而降低其设计与使用成本,推动建立并完善冷板液冷的生态系统,为推进数据中心行业加速脱碳转型,并以此支持各行各业实现低碳发展,共同为中国实现碳达峰、碳中和目标而做出新的贡献。

本文对参与冷板散热系统设计、验证、管路的连接组装、系统的检测及维护人员均具有参考意义。

一文详解深度学习冷板式液冷散热技术规范及要求_第3张图片

 

冷板式液冷整体链路图

数据中心发展趋势

随着云计算、大数据、人工智能等新一代信息技术快速发展,数据呈现爆炸式增长。作为储存和计算基础设施的数据中心加速建设是大势所趋。

一、数据中心总体能耗不断抬升

随着数字经济在人类活动中的占比逐渐增加,信息数据量激增,与之对应的数据分析、处理能力不断提升,使得服务器的密度越来越高,导致数据中心产生热量日益增多。据行业数据报告显示,预计未来 5 年,其仍将以 15%~20% 的速率持续增长,也将使未来数据中心行业用电占社会总用电量的比率进一步提升。

作为“新基建”的引领行业,数据中心是以技术创新为驱动和信息网络为基础的高质量发展行业,在为社会和工业的数字转型、智能升级、融合创新等服务提供基础设施体系的同时,快速增加的能源消耗也带来热点地区局部能源的稀缺和地域之间的不均衡。在北上广这些核心地区,很多潜在项目面临有房无电的窘境。因此,作为单体能源消耗密度高的行业,数据中心必须以绿色低碳、节能减排来应对快速发展带来的挑战,才能实现健康可持续发展。

根据相关国家政策要求,在未来布局的算力枢纽 8 大节点中,东部数据中心 PUE 需要降低到 1.25 以下(包括华南地区),西部地区的数据中心 PUE 要求在 1.2 以下,且要求制冷系统采取新的解决方案。

二、功率密度随需求不断提高

近年来,数据中心单位空间产生热量的瓦数正在不断上升,同时功率密度也在增加,严重制约了传统冷却方法和技术的进一步应用和推广。因此,液冷作为数据中心新兴的制冷技术,逐渐被人们接纳并应用。

Uptime Institute 发布的《2020 全球数据中心调查报告》显示,2020 年全球 71% 的数据中心平均功率密度低于 10kW / 机架,最常见是 5~9kW / 机架,平均单机架功率为 8.4kW / 机架,平均功率密度高于 20kW / 机架的数据中心约占 16%。虽然整体功率密度相较于高性能计算(HPC)等领域还不算高,但总体上升趋势明显,相比于2017 年的 5.6kW / 机架、2011 年的 2.4 kW / 机架增长显著。而且宏观上看,数据中心未来的功率密度还将继续上升。

造成这一趋势的原因主要有两个方面。一是从应用层面来看,计算密集型应用场景的激增,加上云业务广为互联网头部企业采用,导致承载这些应用负载的服务器设备功耗大幅增加,进而使得数据中心设计功率密度呈现逐年增大的趋势。另外一个原因来自 IT 硬件层面。为了满足高算力负载需求,通过单机架叠加多核处理器提高计算密度,导致了 IT 硬件的处理器功耗显著增加,也使得单机架功率密度越来越高。比如,从当前占据全球服务器 CPU 主要市场的英特尔® 架构处理器看,英特尔® 至强® 可扩展处理器 TDP(热设计功耗)从 2019 年的 205W 上升了到达现在的 270W,在 2023 年初将达到 350W,提升近一倍。而这在提供强大算力的同时无疑也带来散热困扰,而解决了散热瓶颈就意味着实现算力提升。

数据中心液冷散热解决方案

采用风冷的数据中心通常可以解决 12kW 以内的机柜制冷。随着服务器单位功耗增大,原先尺寸的普通服务器机柜可容纳的服务器功率往往超过 15kW,相对于现有的风冷数据中心,这已经到了空气对流散热能力的天花板。而液冷技术作为一种散热能力更强的技术,可以支持更高的功率密度。

一、液冷的优势

1、满足高功率密度机柜的散热需求。液冷的高效制冷效果有效提升了服务器的使用效率和稳定性,同时可使数据中心在单位空间布置更多的服务器,提高数据中心使用效率;

2、循环系统耗能少,系统噪音小。使用高比热的液体工质,冷却工质循环能耗少,且液冷简化了换热流程,也减小了风冷末端在房间输送冷风过程中受湍流影响所致的部分能量衰减的问题;

3、占地小,易于选址。使用液冷系统的数据中心相对于传统的风冷数据中心更加简单,去掉了庞大的末端空调系统,提高了建筑利用率,在小空间里也能布置足够规模的服务器,应用场景更易布置,受地理位置影响较小,全国布局皆可实现低 PUE 运行;

4、降低 TCO,运营 PUE 较低,全年 PUE 可达到 1.2 以下。采用液冷散热方案的数据中心 PUE 比采用风冷的常规冷冻水系统降低 0.15以上,可让有限的能源更多分配给算力,从而降低运行成本,增加算力产出;

5、余热回收易实现。相比传统水温,使用液冷方案的水温更高,温差大,热源品味和余热系统效率高;

6、适应性强。冷板式液冷兼容性强,易配套开发,不需改变原有形态和设备材料;空间利用率高,可维护性强,布置条件与普通机房相近,可直接与原制冷系统(常规冷冻水系统)兼容适应。

基于冷板液冷解决方案的一次侧系统

对于液冷二次侧末端不同的水温需求,液冷一次侧冷源可采用机械制冷系统和自然冷却系统。机械制冷系统包括风冷冷冻水系统和水冷冷冻水系统,可提供 12℃-18℃ 的中温冷冻水;自然冷却是在室外气象条件允许的情况下,利用室外空气的冷量而不需机械制冷的冷却过程,自然冷却系统可采用开式冷却塔、闭式冷却塔和干冷器等设备实现,可提供 30℃ 以上的冷却水。液冷一次侧冷源形式需结合二次侧末端水温需求和项目地室外环境情况确定。

一、机械制冷系统

1、风冷冷冻水系统

风冷冷冻水系统是冷冻水制备的一种方式,主要由风冷冷水机组、冷冻水泵及配套设施组成,其液态制冷剂在其蒸发器盘管内直接蒸发,实现对盘管外的冷冻水吸热而制冷,并通过风冷的方式冷却为液态。

风冷冷冻水系统不需要占用专门的机房且无需安装冷却塔及泵房,初期成本投入较低、运行方便,不需要专业人员维护,无冷却水系统,具备节水和降低维护费用等优点。但风冷冷水机组一般装在室外,运维环境相对较为恶劣,维护性及可靠性均不如水冷冷水机组,并且风冷机组在夏季高温制冷效果较差,运行效率较低。

2、水冷冷冻水系统

水冷冷冻水系统是冷冻水制备的一种方式,主要由水冷冷水机组、冷冻水泵、冷却水泵、冷却塔及配套设施组成,其液态制冷剂在蒸发器盘管内直接蒸发,实现对盘管外的冷冻水吸热而制冷,并通过水冷的方式冷却为液态。

水冷冷冻水系统具有耗电量较低、全年制冷效果好、可靠性高和使用寿命长的优点。但其需要专用机房、冷却塔、冷却水泵、冷冻水泵等设备,初投资较大,并且需要循环水,水资源消耗大,且机组本体和冷却设施需要维护,相较于风冷机组,其维护费用比较高。

二、自然冷却系统

1、开式冷却塔

开式冷却塔经过将循环冷却水直接喷淋到冷却塔填料上,同时由风机带动冷却塔内气流流动,通过室外空气与冷却水之间的热质交换蒸发冷却循环水,冷却后的循环水在冷却塔底部出水。开式冷却塔中循环冷却水与室外空气存在热质交换。

一文详解深度学习冷板式液冷散热技术规范及要求_第4张图片

 

开式冷却塔示意图

开式冷却塔初投资和运行成本均较低,占地面积较小,重量较轻,但其运行水质较差,易引起被冷却换热器结垢,适用于室外空气品质较好的区域。另外,虽然可增设一级板式换热器和冷却水泵来避免核心换热器结垢,但对应系统较为复杂,初投资提升。

2、闭式冷却塔

闭式冷却塔是将管式换热器置于塔内,通过室外流通的空气、喷淋水与管内的循环冷却水进行热交换而实现向大气散热的设备。闭式冷却塔有内循环和外循环两个系统,其内循环通过与被冷却设备对接,构成一个封闭式系统,将系统热量带到冷却塔,也即内循环水通过换热盘管将热量传递到大气中;外循环由循环喷淋泵,布水系统、集水盘及管路组成,外循环水不与内循环水相接触,只是通过冷却塔内的换热器吸收内循环水的热量,然后通过和空气直接接触来散热。

一文详解深度学习冷板式液冷散热技术规范及要求_第5张图片

 

闭式冷却塔示意图

闭式冷却塔的水质较好,被冷却换热器不易结垢,寿命长,应用在室外环境质量差且对循环水质要求高的场合优势明显;但闭式冷却塔初投资和运行成本均较高,占地面积大,重量较重。

3、干冷器

干冷器即干式冷却器,其工作过程没有水的消耗,是通过管内走液体与管外走自然风来冷却管内液体,降低管内液体温度,达到冷却的目的。干冷器中的载冷剂通常使用乙二醇溶液,需要根据项目地冬季极端温度选取溶液浓度。

一文详解深度学习冷板式液冷散热技术规范及要求_第6张图片干冷器示意图

 

干冷器没有压缩机,总体耗电量低,机组使用寿命长,初投资比风冷冷水系统和水冷冷水系统低,但其一般安装在室外,运行环境相对恶劣,且在夏季炎热散热较差的区域,需配置水喷淋冷却系统或湿帘系统增强换热,导致占地面积增大。

三、一次侧系统应用场景

在冷板式液冷系统中,发热器件不直接接触液体,而是通过与装有液体的冷板直接接触来散热,或者由导热部件将热量传导到冷板上,然后通过冷板内部液体循环带走热量。由于服务器芯片等发热器件不用直接接触液体,所以该方式对现有服务器芯片组件及附属部件改动量较小,可操作性更强,成为目前成熟度最高、应用最广泛的液冷散热方案。

二次侧相对稳定,通过冷却液分配单元(CDU)及后面的系统架构进行配置。一次侧可以考虑多种的使用条件和场景进行组合。按照制冷的方式,主要分成机械制冷和自然冷却制冷,同时结合国内情况,进行划分如下:

一文详解深度学习冷板式液冷散热技术规范及要求_第7张图片一次侧和二次侧供液温度的参考值

 

一次侧冷源有多种组成形式,需根据当地室外环境温度(包括干球 / 湿球温度)及液冷服务器的进液温度,确定是否需要下调水温;另外供水温度应比室内露点温度高出 2℃~3℃左右,以防结露。

1、方案一:冷水机组 + 冷却塔(开式)+ 板换

在高热高湿地区,机房环境温度要求高,直接采用闭式冷塔 / 干冷器无法直接满足供冷要求,需要辅助机械制冷装置;冷源通常采用冷水机组 + 冷却塔的联合供冷的方式,此结构适应性强,效率高,但耗水量较大,不适合缺水的地区。

一文详解深度学习冷板式液冷散热技术规范及要求_第8张图片

 

冷塔 + 水冷冷机 + 板换系统示意图

系统根据室外温度变化分成两种模式:

模式一:室外温度较低,无需冷机开启,仅凭冷塔 + 板换即可满足制冷要求。

模式二:冷塔出水水温高于 CDU 需求,需要机械降温补冷,形成冷塔 + 冷机的组合形式。

2、方案二:风冷冷水机组

风冷冷水机组将冷凝器、水泵、压缩机等部件合成整体,且通常配置干冷器(免费冷源模块),集成度高;但是无法利用水的蒸发潜热,系统能效低,适合系统偏小环境以及缺水地区。

一文详解深度学习冷板式液冷散热技术规范及要求_第9张图片

 

风冷冷水机组示意图

使用模式与场景 1 相近,也具备两种模式:

模式一:室外温度较低,无需冷机开启,仅凭免费冷源模块即可满足

制冷要求。

模式二:免费冷源模块无法满足 CDU 的温度要求,需要机械降温

补冷,则直接使用风冷冷机形式。

3、方案三:闭式冷却塔 / 干冷器

对于当地气温全年较低,可采用闭式冷塔/干冷器直接供冷,全年无需机械制冷。

一文详解深度学习冷板式液冷散热技术规范及要求_第10张图片

 

闭式冷却塔/干冷器液冷系统示意图

闭式冷塔和干冷器使用模式基本相同,闭式冷却塔系统仍以蒸发散热为主,可以输出更低的温度,循环系统水质较好,对于 CDU 或者其它换热设备友好,只是耗水量大。干冷器体积较大,单机制冷量偏小,但容易布置,配置上湿膜,还可以部分使用蒸发冷却。

该系统也分成两种模式:

模式 1:干模式,无需通过水蒸发散热。

模式 2:湿模式,系统需要通过喷水蒸发的潜热带走热量,闭式冷却塔此时和开式冷却塔相同。干冷器通过进风口的湿膜初步降温,再进行二次降温。

4、方案四:开式冷却塔

开式冷却塔制冷模式与闭式冷却塔完全相同,只是开式冷却塔水路与大气相通,水质较差。

一文详解深度学习冷板式液冷散热技术规范及要求_第11张图片

 

开式冷却塔冷却示意图

上述方案以液冷侧需求为主要考量因素。冷板液冷机房在实际运转过程中,液冷系统往往仍然需要配备少量空调使用,以满足服务器中非液冷部件的散热需求。

一文详解深度学习冷板式液冷散热技术规范及要求_第12张图片

 

一次侧冷源建议方案

二次侧冷液冷板概述

二次侧液体回路是指从冷量分配单元到机架,通过供回冷却工质歧管和 IT 设备连接,然后再通过歧管返回冷量分配单元的设计。来自二次侧冷却回路的热量通过冷量分配单元的板式热交换器传递到一次侧冷却回路,最终排放到大气中或被热回收再利用。

随着 IT 设备功率密度的增加,需要更高效的冷却技术来满足日益增长的算力需求。与传统的风冷相比,液冷方案提供了更加高效的冷却效率。而何时转换到液冷取决于许多不同的因素,例如包括散热性能需求、电力配备、PUE 要求、IT 设备密度、冷却成本,以及将来的 IT 设备的性能需求和部署策略等等。另外,是改造现有设施还是重新建造新的数据中心机房, 也需纳入 TCO 的考量范围。

采用液体冷却的一个直接原因是,传统的风冷方案已经无法满足 IT 设备的散热需求,故而需要新的方案提升冷却能力。对于 CPU 和GPU 等高功耗元器件,究竟何时或在何种功率水平下需要液体冷却,目前尚无通用指南,不能一概而论。但应注意的是,除了成本分析外,还需要了解液冷方案的一些设计考量,比如冷却回路中的所有浸润材料与所使用的冷却工质相容并保持长期可靠性,使用的冷却工质不能与任何其他冷却工质混合使用等等。

液冷部件设计考量

一、冷却工质

二次侧冷却回路中常用的冷却工质包括水基冷却工质和非水基冷却工质。其选择需要在满足冷却性能需求的同时,还应满足二次侧冷却回路中所有浸润材料的相容性和长期可靠性,并同时考虑IT设备及冷却工质本身维护的便利性、使用预期寿命及液体的成本等综合因素。

每种液冷冷却工质都有不同的优点和缺点,下面表中有详细介绍。水基冷却工质具有良好的传热性能,其中的纯水液通过维持超低电导率环境抑制浸润材料的腐蚀和微生物的滋生;配方液通过缓蚀剂和杀生剂的添加剂降低浸润材料的腐蚀风险和抑制细菌生长。但这些添加剂会降低水的热传导性能,也存在因消耗而失去作用的问题,所以需要研究对整体性能的潜在影响和品质监测方法。

水的另一个特性是常温常压下其冰点是 0°C。因此,需要考虑其工作环境温度范围以及是否满足操作、运输和储存期间的要求,通常使用的防冻剂包括丙二醇和乙二醇。但随着冷却工质中丙二醇或乙二醇含量的增加,会造成冷却工质粘滞系数过高,对热性能造成部分衰减,同时水泵的扬程需要提高,导致水泵功耗提升。因此,了解操作温度及储存和运输过程的温度要求非常重要,不要添加太高比例的丙二醇或乙二醇,25% 及以上的丙二醇或乙二醇溶液,即具有一定的抑制液体中细菌生长的功能。另外,通常冷却工质使用防冻剂首选丙二醇。丙二醇比乙二醇毒性小,在自然环境中分解速率也更快。少量的丙二醇甚至被用作食品工业的添加剂,具体优缺点见下表。

为了减低液冷系统在运输过程中的腐蚀和污染的风险,IT 设备或机架可以预先充入合适的冷却工质或惰性气体加以保护。在系统现场装配时,除了按照制造商提供的装配操作流程,还应考虑在系统运行之前冲洗预充的液体及充分排除系统内部的气体。此外,必须定期检测液冷冷却工质,尤其是配方液的品质以了解其成分变化。

非水冷却工质主要是矿物油或合成油、介电液体和冷媒。矿物油或合成油类工质因其粘度、粘性和易吸湿水解等问题不作推荐;介电液体有单相和两相两类,沸点较高的液体通常用于单相冷却,沸点较低的液体通常用于相变冷却。介电液体的一个优点是,在发生潜在泄漏时,液体本身是电绝缘体(低导电率),一般不会造成 IT 设备的电子电路短路。介电液体通常密度更高,成本也比较贵,同时针对某些介电液体需要考虑全球变暖潜能值(GWP)的影响,这些因素必须在选择冷却工质时予以充分考虑。除介电液体外,冷媒也可用于两相冷却。冷媒具有相对较低的沸腾温度,允许液体相变并蒸发,可以通过改变工作压力来改变饱和温度。

一文详解深度学习冷板式液冷散热技术规范及要求_第13张图片

水基冷却工质优缺点

一文详解深度学习冷板式液冷散热技术规范及要求_第14张图片

 

防冻液优缺点

一文详解深度学习冷板式液冷散热技术规范及要求_第15张图片介电液体优缺点

 

一文详解深度学习冷板式液冷散热技术规范及要求_第16张图片

冷媒的优缺点 

1、浸润材料

浸润材料是指其表面与冷却工质直接接触的材料,必须和冷却工质之间具备相容性,以将冷却回路中潜在的腐蚀风险和泄漏风险降至最低。因此,详细了解所有冷却部件和所使用的材料至关重要,需要和所有浸润材料部件及液体供应商建立密切合作,确保材料的相容性。ASHRAE 提供的列表只是一个初步的建议,随着新设计及新材料成分引入,它将继续完善和更新。需要注意的是,该列表并不是对所述材料相容性的承诺,具体材料的选择,仍然需要通过测试来确定。

2、过滤装置

过滤装置就是用于弥补冷却工质品质和系统腐蚀可能带来的风险的专门功能组件,用于防止因颗粒物、碎屑和细菌污染而引起的操作可靠性问题。颗粒物是微观的,通常以微米为单位进行测量。

过滤装置的主要作用是为了防止颗粒物积聚污染系统部件,尤其是在冷板液冷中,还与微通道冷板内的翅片阵列宽度、热交换器板间隙宽度及快换接头结构都有关。在这些地方,颗粒物污染可能导致堵、性能降低、泄漏或系统故障。过滤装置的位置是系统设计者需要考虑的一个问题,过滤装置工作会影响系统压降,而良好的设计旨在尽可能地减少过滤器的压降从而提高系统冷却效率。可根据开式系统或密闭式系统选择过滤装置的精度。设计者应考虑维护的便利性,这包含计划周期性的维护和计划外的突发维护干预,使用冗余设计来保障液冷系统实现在线维护。

3、冷却工质要求

冷板使用的冷却工质应满足如下要求,即冷却工质应具有良好的热力学性能,不同冷却工质的物性参数参见中国国标 GB / T 15428-1995的附录 A 及 YD / T 3982-2021 中第 4 章和第 6 章的要求。

4、冷却工质选择考量指标

冷却工质液体具有不同的热性能,在评估不同液体的热性能时应对此予以重视。下表中显示了液体评估时的重要参数。按照液冷装置部署所在地的地理位置和气候条件,这些参数需要综合考虑。

一文详解深度学习冷板式液冷散热技术规范及要求_第17张图片

 

冷却工质液体热性能参数

二、冷板的设计与验证

冷板的选择取决于散热要求、成本要求、操作参数及使用的浸润材料等因素。二次侧冷却回路中与冷却工质接触的所有部件所使用的材料必须要和冷却工质的浸润材料清单(WML)相符。根据需要被冷却的元器件不同的温度要求、冷却工质参数,例如流速、温度和传热特性,冷板设计复杂难度也不同。例如,常用的微通道冷板结构比较复杂,其中微通道主要是增加与液体接触面积,以提高冷却性能。而更简化的冷板设计是带有简易内部流体通道的模块。

随着设计复杂性的增加,成本也随之增加。因此,如果使用简单的设计就可以满足冷却需求,那就不需要通过增加设计的复杂性,来获得更高的冷却性能。

一文详解深度学习冷板式液冷散热技术规范及要求_第18张图片

 

1、冷板设计考量指标

在设计冷板时,需要考虑不同的参数,这些参数如表 8 所示(通常使用热界面材料(TIM)来增强需要冷却的部件与冷板之间的传热性能,这里不展开讨论)。同时,还需要考虑冷板与内部液体回路管道的物理连接。对于微通道冷板设计,也有一些重要参数,其中翅片之间的间距是确定过滤装置孔目大小设计要求的一个重要参考参数,为避免污垢堵塞,建议液体中颗粒尺寸不大于 50μm。

一文详解深度学习冷板式液冷散热技术规范及要求_第19张图片

 

冷板设计考量参数

2、冷板设计要求

冷板设计满足如下要求:

  • 应根据芯片的型号尺寸及电子信息设备的内部结构进行设计,以获得更好的换热效率;在满足芯片整个使用周期内的壳温要求下,尽可能优化流道设计,减小冷板模块的流阻;

  • 应保障满足芯片插座的载荷要求及芯片对散热器重量的要求;

  • 应考虑配管位置、方向及液体进出口位置,避免与电子信息设备产生结构干涉;

  • 冷板基板和流道宜采用铜或铝合金材质,一个系统中不应有两种电位差较大的金属;

  • 应考虑冷板的安装及拆卸顺序,满足芯片的操作要求;

  • 应满足芯片的扣合力技术要求,及安装/拆除后散热器底面平面度的技术要求;

  • 冷板接口设计应考虑冷板最大允许压力和安全余量,并考虑拆装冷板组件时可能产生的接口应力等问题;

  • 如使用配方液冷却工质,缓蚀剂配方必须与冷板选用材质相匹配,并兼顾整个系统的材质匹配问题;

  • 冷却工质的选用应考虑与二次侧循环回路中所有直接接触的固体表面材质间的相容性。

3、冷板热性能要求

冷板热性能应满足如下要求:

  • 冷板使用者应提供冷板入口处冷却工质的温度和流量条件;

  • 待冷却芯片的壳温在整个使用期间不应超过芯片供应商规定的最大壳温值;

  • 二次侧冷却环路总的流阻需要适配冷量分配单元循环泵工作点扬程能力;

  • 系统总的流阻容量选择以及待冷却芯片的壳温需要考虑一定的冗余,流阻容量的冗余宜不小于 10%,壳温冗余宜不小于 3℃,以便满足系统的容差需求;

  • 冷板设计者宜提供冷板使用的热边界条件曲线,即入口处冷却工质温度与流经冷板的冷却工质流量之间的依存关系。图中给出了冷板设计的热边界条件曲线。当冷板使用边界条件(入口流量及入口温度)位于曲线下方(含曲线)的任一边界条件(冷板入口处冷却工质的温度及其流量)时,该冷板的冷却能力即可满足待冷却芯片的最大壳温要求。可同时参考冷板热阻与冷板流阻曲线示意图;

  • 冷板入口处冷却工质流速不宜高于 1.5m/s,冷却工质供回液温差宜控制在 5℃-10℃ 范围内。

一文详解深度学习冷板式液冷散热技术规范及要求_第20张图片冷板设计热边界条件曲线

 

4、冷板热性能测试

将冷板锁固在待测芯片上,冷板的液体进出口与热性能测试系统相连,同时确保测试环路中非凝性气体排空,并将流经冷板的液体流量调节到期望值,给待测芯片施加期望的功耗;待测试结果稳定后,记录冷板进出口的压力值、待测芯片的壳温、冷板入口液体温度、给待测芯片施加的功耗值,以及流经冷板的液体流量值。依据测试结果,分别依据式(1)和式(2)计算冷板在一定的流量范围内的热阻值和流阻值,绘出冷板的热性能曲线和流阻曲线。

R=(Tc - TL) ⁄ Q ………………………………(1)

R——冷板热阻,单位为(℃/W)

Tc——待冷却芯片的壳温,单位为(℃)

TL——冷板入口液体温度,单位为(℃)

Q——施加在芯片上的功耗值,单位为(W)

ΔP=P1 - P2………………………………………(2)

ΔP——流经冷板的流阻值,单位为(KPa)

P1——冷板进口的压力值,单位为(KPa)

P2——冷板出口的压力值,单位为(KPa)

在用户期望的冷板使用边界条件下(给定的 TL 和 Q),测得的冷板所能支持的壳温值,在考虑标准差和冷板生命周期内热性能衰减之后不能高于芯片的最大壳温。

一文详解深度学习冷板式液冷散热技术规范及要求_第21张图片

 

冷板热性能和流阻曲线

三、冷量分配单元及冷却性能

冷量分配单元(CDU)是一种用于在液体回路之间进行热交换的装置。CDU 组件包括接口、泵、液-液或风-液热交换器、储液罐、阀门、控制装置、监控装置、过滤器及各种传感器,主要用于制冷量、流量、压力及温度的测量和控制。CDU 使用的各种组件材料必须要和所用冷却工质进行匹配测试验证,确保其相容性。

CDU 将二次侧流体回路与一次侧回路隔离,提供二次侧流体回路和一次侧流体回路之间的连接及热交换,CDU 的功能还包括对压力、流量、温度、露点控制、水质洁净度及泄漏监测。通过使用CDU 分离一次侧和二次侧回路,可降低潜在的泄漏(二次侧回路中的液体量较小,压力和流速较低)。在使用优化方面,通过 CDU 控制可以平衡由于温度的要求、负载的不同及功耗优化造成的各 IT 设备间的差异。

CDU 支持的机架数量可以从单个机柜扩展到组合机架的组或集群,液体通过安装在机架中带接头的专门管道供回液歧管分配。CDU 的大小和参数设置取决所有 IT 设备集群产生的热负荷。当然各个功率水平因组件而异,确定热负荷的大小需要考虑到未来有可能引入新技术时需要的热冗余。此外,冷却工质的性质和特性(如导热系数、粘度、比热和密度)也会影响冷却能力和泵的工作功耗。

一文详解深度学习冷板式液冷散热技术规范及要求_第22张图片

 

冷量分配单元热交换原理示意图

1、冷量分配单元的考量指标

在选择 CDU 时,有些参数需要考量,其中一些参数如表 9 所示。另外,需要和 CDU 的供应商确认,所有用于 CDU 部件的浸润材料必须和冷却工质材料相容。

一文详解深度学习冷板式液冷散热技术规范及要求_第23张图片

 

冷量分配单元(CDU)考量参数

2、冷量分配单元冷却性能

CDU 的换热器冷却能力取决于其趋近温度特性。趋近温度是冷却工质在 IT 设备入口处的温度减去一次侧冷却水在 CDU 入口处的温度。除了趋近温度之外,在考虑 CDU 的散热及机械性能时,还有其他因素需要考虑。其关键参数包括:

  • 趋近温度(宜选用(3-10)°C)

  • 液体成分(例如:纯水、25%PG、55%PG)

  • 一次侧流量、二次侧流量和泵功率和扬程

  • 一次侧用水温度等级(例如:W27、W32、W45、W+ 等等)

由于没有一套标准化参数用于不同 CDU 之间的性能比较,建议每个客户与各自的 CDU 供应商合作,依据实际操作条件,评估所考虑的 CDU 能否满足散热要求。例如,可以让供应商提供 CDU 在特定液体操作下,在一次侧和二次侧不同流量的对应关系、CDU 的排热能力及趋近温度等。

3、冷量分配单元一次侧冷却系统

室外冷源:

参考《GB 50019 - 2015 工业建筑供暖通风与空气调节设计规范》,CDU 一次侧冷却室外机在采用蒸发冷却时,可以将供水温度逼近室外湿球温度。因此,在不使用制冷机组的情况下,CDU 一次侧最低供水温度主要由项目所在地的夏季空调室外计算湿球温度确定(可参考 ASHRAE 各地环境以及十年极端天气)。

参考《Liquid Cooling Guidelines for Datacom Equipment Centers》,开式冷却塔循环水与外界空气直接接触,需要排放废水。且水中杂质颗粒物较多,需要防止结垢。为保证制冷效果与稳定性,CDU 一次侧冷却设备不推荐使用开式冷却塔,建议采用闭式冷却塔或者干冷器。

一次侧管材:

参考 ASHRAE《Liquid Cooling Guidelines for Datacom Equipment Centers》,一次侧回路水管材质可以考虑:

铜合金:122、220、230、314、360、377、521、706、836、952;

聚合物 / 弹性体:丙烯腈丁二烯橡胶(NBR)、乙丙二烯单体(EPDM)、

聚四氟乙烯(PTFE);

不锈钢:300 系列、400 系列、碳钢。

水质要求:

CDU 一次侧循环水水质的好坏直接影响 CDU 的换热效率以及使用寿命。为支撑液冷系统长期稳定运行,CDU 一次侧闭式循环水系统水质可以参考 GB/T 29044-2012《采暖空调系统水质》中集中空调间接供冷闭式循环冷却水系统标准。

一文详解深度学习冷板式液冷散热技术规范及要求_第24张图片

 

GB / T 29044-2012《采暖空调系统水质》中集中空调间接供冷闭式循环冷却水系统标准

同时,可参考 ASHRAE_TC.9.9_ Water-Cooled Servers Common Designs, Components, and Processes_2019

一文详解深度学习冷板式液冷散热技术规范及要求_第25张图片

 

4、液冷群控系统

液冷群控系统负责室外冷源、液冷 CDU、一次侧循环水泵、补水、水质监测、漏液告警等,通过群控系统实现组网运行、节能控制,具备主备、轮询、冗余配置、故障切换以及供冷连续性功能。在群控模式下,主控制器根据机房实际负载情况,对液冷机组进行加减机和降频控制和巡检告警等。

四、机架式冷却工质供回液歧管设计考量

机架供回液歧管是二次侧回路中的一个关键部件,用于分配流入或流出机架内 IT 设备的冷却工质。在使用机架式 CDU 的液冷部署中,歧管可以与 IT 设备和机架式 CDU 直接构成完整的闭式循环回路。歧管结构的特点是沿着管的方向有一系列形成液体回路的快换接头连接着 IT 设备,连接接头有盲插、手动连接、螺纹连接等多种类型。接头的直径和歧管尺寸的选择需要满足当前和未来液体流量及操作性能要求,以及 IT 设备内的液体流动拓扑结构和冷板数量需求。为了有效利用空间,冷却工质歧管位置应位于机架占地面积内。

歧管的位置通常在机架内后部,也可以根据IT设备的部署及配电设计要求,放置在机架的前面或侧面。供回液歧管位置的选择需要确保满足快换接头、电源接口、网络和其他 I/O 的操作要求,包括 IT 设备运行的电缆和软管的管理,需要方便 IT 设备的接入和断开。供回液歧管为二次侧液体回路提供了一个重要的连接点,液体回路的布局可能会有所不同(此处不详细讨论),供回液歧管与液冷系统管网的连接点可以在机架的底部或顶部,但因连接位置点泄漏风险相对较大,在底部泄漏后滴落在地板上风险更低,所以建议连接点设置在机架底部。

二次侧回路的连接部件包括能够保持二次侧操作压力的管道和快换接头,同时,快换接头需要满足爆破压力的要求工质(见第七章压力安规)。典型的数据中心预期使用寿命是 10-20 年,除快换接头外,由于歧管的部分结构寿命限制,可能需要对供回液歧管进行维修、维护和升级,还应顾及供回液歧管的装配、调试和终身维护,因此需要仔细考虑歧管的设计和选择。

一文详解深度学习冷板式液冷散热技术规范及要求_第26张图片

 

机架式冷却工质供回液歧管示意图

1、冷却工质供回液歧管考量指标

当评估不同的歧管设计方案时,需要考虑不同的参数以满足歧管各支路流量分配的均匀性,以及歧管提供流量与需求流量的匹配性。其中一些参数如下表 所示。

一文详解深度学习冷板式液冷散热技术规范及要求_第27张图片冷却工质供回液歧管考量参数

 

2、冷却工质供回液歧管参考设计要求

任何歧管的参考设计都需要满足表中列出的最低运行条件,以确保其能够正常工作,同时在世界上绝大多数地方运输过程中不会出现问题。

一文详解深度学习冷板式液冷散热技术规范及要求_第28张图片

 

冷却工质供回液歧管参考设计要求

五、冷板式液冷回路中循环泵的选择

泵是向其它系统重要部件提供液体流量的核心。泵的选择是系统设计最重要的一环,在设计液冷解决方案的早期阶段就需要考虑。为了使冷却工质与泵相匹配,泵的形态及制造材料有多种选择。出于维护和降低故障的目的,还可能会采用双泵配置的冗余设计,无论是串联配置还是并联配置,管路的连接都需要考虑空间、布局、尺寸、材料相容性、维护方便性和连接类型。

泵由各种类型的电机驱动,在评估或优化装置的能源效率时,需要考虑这一点。泵的安装位置决定了其局限性和选择标准。泵在二次侧的位置的选择有很大的差异性。具体来说,如果泵放在 IT 设备中,其高度需不高于IT 设备的机箱高度。IT 设备内的空间非常宝贵,泵的集成构成了服务器机箱布局的一部分。IT 设备供应商在设计液冷方案的时候需要管理机箱内冷却工质的流量,使其和需被冷却的电子元器件热负载相匹配。

基于这一目的,泵可直接集成到冷板上,或以分离的形式提供循环动力和所需流量。作为一个好的系统设计,设计人员还需考虑压降和效率。此外,还需满足冷却工质与泵内部材料和过滤装置的材料相容性,以防污染颗粒堵塞泵并降低其工作效率,甚至导致故障。液体特性包括粘度,液体粘度的变化会改变泵的工作效率和寿命,选择不当的泵可能会降低泵的寿命。

另一个考虑因素是工作环境,包括液体的特性和操作温度,这将决定泵内使用的部件材料,因为冷却工质将与泵内件直接接触。泵的选型要求还取决于管道布局 / 设计、管道长度、弯管品质和材料选择等参数,这些可能会导致液体和管壁摩擦并形成湍流,从而导致压降增加。

1、泵的选择考量指标

一文详解深度学习冷板式液冷散热技术规范及要求_第29张图片泵的选择考量参数

 

六、快换接头的选择方法

在二次侧流体回路中,快换接头是保证服务器具备在线插拔维护性能的关键部件,决定了 IT 设备的可维护性和模块化设计,但其会给液冷系统带来额外的流阻,因此快换接头选型应考虑其流阻特性和后续服务器升级的需求。

快换接头是公 / 母配置(插头 / 插座、插件 / 主体等)配对使用的。断开时,集成在快换接头内部的用于密封流体流动的自封阀芯会断开流体的连接,以保护周围设备不受影响,因此其选型必须严格限制每次断开时冷却工质的泄漏量;一般要求单次插拔泄漏量小于 1/6 液滴(连续插拔 6 次,允许一滴滴落)或小于 0.5 毫升,且建议使用液体泄漏量最小的快换接头,此类接头通常为无滴、无溢流或平齐断面设计。

在使用手动插拔快换接头连接的系统中,应考虑人体工程学问题(例如锁紧机构、连接力、空间限制),确保易于维修。盲插设计通常还需要考虑安装公差和不对中公差,设计可靠的盲插配合机构(如导向装置)。快换接头与二次侧回路组件(机架液歧管、CDU、软管等)的接口可以通过多种方式实现。对于软管连接,椎管扣压式或卡箍式结构提供了一种简单可靠的连接方法;对于更刚性的连接,如机架液歧管组件,螺纹连接比较常见,应注意的是,螺纹连接应禁止使用生料带和螺纹密封胶。SAEJ 1926或 G / BSPP ISO 1179 等 O 形圈连接坚固可靠,便于安装和制造。

一文详解深度学习冷板式液冷散热技术规范及要求_第30张图片

 

快换接头示意图

1、快换接头考量指标

表中列出了选择冷板式液冷快换接头时需要考虑的参数。需要注意的是,工作压力和爆破压力不同,工作压力可定义为正常工作条件下的最大系统压力,爆破压力表示部件发生灾难性故障时的最小压力。

一文详解深度学习冷板式液冷散热技术规范及要求_第31张图片

 

快换接头考量参数

*无法提供插拔力曲线的,至少应提供设计工况下的插拔力值,尤其在手动插拔设计中,插拔力必须满足运维人员可手动插拔的要求。

七、二次侧管路

二次侧管路将 CDU 和末端服务器冷板相连,一般连接方式有直连和环形管路连接两种。环形管路是二次侧回路中的一个关键部件,用于连接 CDU 的二次侧和机架歧管,实现冷却工质均匀分配;环形管网包含供液环管、回液环管、CDU 支路、机架歧管支路、排气装置和排液口等,用以供液环管和回液环管分别形成环状闭合回路,且提高环状闭合回路系统的流量均匀性。另外,环形管网中无死端,液体一直处于流动状态,不易变质。

每个 CDU 支路和机架支路上都安装有阀门连接 CDU 和机架歧管,便于单个设备的维护。为确保局部管段检修或发生故障时,其它管段能正常运行,不间断供液,应采用阀门将环形管网分成若干独立段,一般为相邻机架管路段之间用阀门隔开,也可将多个机架管路隔开。

一文详解深度学习冷板式液冷散热技术规范及要求_第32张图片

 直连式示意图

一文详解深度学习冷板式液冷散热技术规范及要求_第33张图片

 

环形管路示意图

环形管网一般布置在静电地板下,管网上的阀门操作手柄应方便操作,不与机架底座或静电地板立柱相干涉;环形管网段与段之间、支路与 CDU、机架歧管之间通过快装卡盘或者法兰连接。当管网较长时,应在某一段或某个连接处,采用软连接和活套法兰,采用软连接吸收设计及加工时长度方向误差,采用活套法兰吸收法兰焊接时的角度误差。

环形管网的管径选型根据 CDU 流量以及机架数量进行核算,支路管径与 CDU 和机架歧管接口匹配。环形管网宜采用 304 或以上不锈钢材料在工厂内预制完成,施工现场直接拼装。不锈钢管道焊接采用氩弧焊工艺,单面焊接,双面成型。每一段管路都需无尘车间生产确保管内洁净,以及封闭包装发往现场,且出厂前都必须经过酸洗钝化及超声波清洗。

一文详解深度学习冷板式液冷散热技术规范及要求_第34张图片

环形管网参考设计输入

八、背板空调

背板空调负责液冷服务器风冷部分散热,其由背板空调系统(外壳、风机、换热盘管、控制器)、工质管道及阀件、配电系统及自控系统组成,用于保障机组实现最优性能和工艺设备等安全运行。背板空调与机架紧密结合,安装在机架后门。背板空调常用工况送风温度 ≤25℃,回风温度 35℃。

泄漏检测与干预

减少泄漏的主要方法是采用稳健的泄漏预防策略。同时,在实际设备安装操作中,需要制定完善的泄漏管理计划,管理计划包括泄漏检测和干预,且需要满足数据中心的设施运行要求。

在二次侧冷却回路中,需要在不同的存在泄漏风险的位置进行检测,如 CDU、机架、快换接头、和/或计算节点,可采用间接检测方法,可通过监测和分析现有硬件和传感器的状态,检测并识别到管路中与泄漏特征匹配的微小压降和/或流量变化。而直接检测方法是在高风险区域部署专用泄漏检测硬件。典型的直接检测装置为点探测器、薄膜检测带或泄漏检测线缆,当其与泄漏的导电冷却液接触时会记录并告警。为了进行可靠的泄漏检测,其传感器应放置在发生泄漏时冷却工质与之直接接触或有可能聚集后再接触的区域,比如机架、CDU 和 / 或二次侧环路管道等设施的下方,以检测二次侧环路管路和机架之间和/或冷却工质输送过程中的潜在泄漏风险。

由于计算节点通常是 IT 设备中最昂贵的组件,且存在泄漏的导电冷却工质可能造成设备损坏和数据丢失等风险,因此需要检测计算节点附近的潜在泄漏,而且在检测泄漏和快速定位发生泄漏的计算节点位置的同时,需要吸附、储存和/或导流装置,避免漏液与高价值设备接触,争取人工处理响应所需的时间。另外,增加用于确定泄漏位置的传感器,会带来成本相应增加。

泄漏有不同级别的干预方式,最低级别的干预是手动干预,即当发生泄漏时,会通知设施人员到现场处理,但人员响应时间周期内可能已造成损失。高级别的干预是自动电气干预,即在发送泄漏事件的同时对 IT 设备进行数据存储、关机和/或自动断电。这可以降低暴露在泄漏/冷却工质中的硬件损坏或数据丢失的概率,但需要考虑如何处理被泄漏的液体接触但被挽救了的设备。还有一种更好的的方法是自动电气和流体干预,也就是当检测到泄漏通知时,IT 设备断电,同时冷却液关闭。这可以更大限度地避免大量硬件设施暴露接触到泄漏液体中,从而方便维修,减少损失。当然,泄漏自动干预会造成成本的增加,是否采用需要根据实际需求进行权衡。

泄漏检测分类分为间接和直接两种方式:

间接方式:通过使用现有的压力、流量、温度和气泡等传感器和算法,来确定泄漏;

直接方式:在特定位置(如上所述)使用泄漏绳/电缆、薄膜检测带等检测作为传感器,直接检测漏液。

泄漏干预分类分为两种方式:

手动干预:在检测到泄漏后使用手动干预,例如,关闭流量控制阀并关闭 IT 设备;

自动干预:在检测到泄漏后使用自动干预方法,例如,IT 设备断电和/或冷却液关闭。

压力安规

液冷系统及其部件需要符合当地安全规范,也可参考国际电工委员会(IEC)针对 IT 设备的安全标准,即 IEC 60950-1和 IEC 62368-1。

IEC 62368-1《音频/视频,信息和通信技术设备第 1 部分:安全要求》第 3 版(2018 年)是新的安全标准,其要求冷板以正常工作压力的3 倍压力进行爆破压力测试,允许变形但不能泄漏;而在正常工作压力下(例如:40psi) 液体不泄漏,冷板无变形。

总结

数字化和绿色低碳已经成为经济社会高质量、可持续发展的关键推动力。中国“双碳”目标的提出,更让数字化与绿色低碳相互协同,加速推动数字基础设施优化升级,推进千行百业更快速实现碳中转型,也成为中国发展数字经济,把握新一轮科技革命和产业变革新机遇,构建现代化经济体系的重要引擎。英特尔植根中国,携手生态伙伴积极行动,不断协同推进技术创新,坚定不移实施责任战略,助力中国加速实现“双碳”目标。

《绿色数据中心创新实践——冷板液冷系统设计参考》是在生态伙伴积极参与和大力支持下,应对 IT 设备功耗和功率密度的增加,需要新的冷却技术来满足不断提高的计算性能需求,而共同探索和提出的更经济、更高效的冷却方案参考。本规范借鉴国际经验,经大量实验,系统阐述了冷板液冷系统设计相关的要求,以及未来液冷设计需要遵守的规范要求,可为数据中心液冷方案设计与研究提供路径与借鉴。

就在本设计参考规范推出前不久,英特尔也发布了到 2040 年实现温室气体零排放的目标及里程碑。我们也希望籍此设计参考规范面世,进一步深化与产业伙伴的合作创新,继续深入探讨冷板液冷技术,不断完善本规范,进而为推进 IT 设备、算力设施,尤其是作为数字经济底座的数据中心进一步节能降耗,探讨新方案、新途径,为绿色新型基础设施建设打造最佳实践,并由此释放整个产业生态和科技生态之力,为中国数字基建脱碳拓展更广阔的道路,为数字经济整体迈向“碳中和”奠定坚实基础,并助力中国为全球可持续发展做出更大贡献。

液冷应用案例

一、超聚变液冷解决方案

超聚变数字技术有限公司经过 10 年可靠性积累,170 余项可靠性测试,已经成功在国内外交付商用液冷服务器 10000+台,商用案例有互联网、高校、云数据中心、政企、超算、金融等。

超聚变打造整创新架构整机柜液冷服务器,整机柜使用机柜上走电下走水架构,原生液冷设计实现天然可靠性保障,支持 100%液冷散热,PUE 达 1.10 以下,满足国家政策要求,是东数西算最佳的液冷解决方案,整机柜支持高密部署,整机柜可支持 144 个 CPU,同时机房免冷机部署,机房空间利用率再提升20%;业界首创液、网、电三总线盲插,机柜内 0 线缆部署,支持机房向机器人运维演进,同时配套超聚变智能运维管理软件业务上线效率提升 10 倍以上。通过架构创新和整机工程技术创新打造最佳的商用液冷方案,致力为客户提供绿色节能算力,为东数西算主要枢纽节点提供优质方案。

在国内某液冷数据中心布署有超聚变上万液冷节点,是全球最大液冷集群,TCO 降低 30%,交付效率提升 100%。

 

二、英特尔助力京东云打造冷板液冷解决方案

到 2025 年,重点工业行业能效全面提升,数据中心等重点领域能效明显提升,绿色低球能源利用比例显著是高,节能提效进一步成为绿色任碳的"等一能源"和降相成碳的首要举措,新建大型超大型数挺中心电能利用效率(PUE)优于1.3。

1、数据中心能耗持续增长液冷散热比风冷更具优势

现代化高密度数据中心,不断提升的整体功耗给救热效率,节能减排、运营成本等带来了极大挑战,相比传统的空气冷却方案,液体冷却(液冷)有着更高的冷却效率与解源效率:

  • 热量能够在更靠近其来源的地方与液冷介质进行交换

  • 同体积的传热介质,冷却剂传递热量的速度是空气的6倍,蓄热量是空气的1000倍

  • 冷却液传热次数更少,容量缩减更小,可更有效降低XPU等关键组件的运行温度及性能损失

2、高密度工作负载计算能力需求不断提升

  • 芯片整体TDP随性能增加而增加,京东云 x86 处理器典型TDP,2013年为105瓦,2022年为350瓦

  • CPU漏电功率随温度升高而增加,占用更多功率预算,冷却系统要帮助将热阻降低到典型范围:0.3-0.5 c/w

  • 液冷与风冷在设计上有较大差异,在效率、稳定性、经济性等方面还有很多优化空间

3、面向可持续发展的冷板液冷解决方案

京东云冷板液冷解决方案是从数据中心级到系统级的整体方案,涵盖CDU、机架、服务器等不同层级的产品与技术,在CDU、工作液、歧管、服务器等方面进行了针对性的设计。

  • CDU

    在整体液冷解决方案中,CDU 必须具有泵、热交换器、过滤器、补水系统、变频器、监视器功能(如温度和压力传感器)和其他组件

  • 工作液

    一次回路侧选择去离子水+乙二醇作为工作流体。去离子水有低电阻特性,乙二醇确保流体在低环境温度下冻结而导致管道破裂的低风险。二次回路选择纯去离子水以提高热性能。

  • 歧管

    安装在机架上的歧管将冷流体分配到每个服务器节点,在歧管顶部的快速连接器可方使机架部署;歧管底端设计了手动排污口,方便系统排水维护。

  • 服务器

    服务器液冷方案主要由冷板、管路、快速接头和检漏线组成,单相冷板供液温度范围为 40~45℃,工作液容乙二酶溶液(去离子水)。为防范液体泄露,京东云采用检漏线包裹液冷系统,特别是在冷板和管路接头处,确保漏液情况下及时报告并启动漏液应急措施。

4、第三代英特尔”至强”可扩展平台助力京东云服务器液冷设计

第三代英特尔至强可扩展处理器

  • 提供8个插措配置的多插槽内核计数密度 

  • 性能、吞吐量和 CPU频率显著提升

  • 内置AI加速功能,提供无规性能基础,加快多云、智能边缘和后端等数据的变革性影响。

京东云已于 2021年第二季度在数据中心部署了冷板液冷解决方案采用了基于第三代英特尔至强可扩展处理器的定制化服务器,调整了核心数、基础和 Turbo题率,TDP、RAS特性、T机箱等主要基数,以适配其可持续的液冷数据中心。

5、实际工程部署结束,京东云冷板液冷方案优势显著

通过部署冷板液冷整体解决方案,京东云自建数据中心实现:

  • 数据中心PUF 降至1.1

  • 每个14KW 机柜每年节电31031度

  • 每个14KW 机柜每年碳减排24.4吨

三、蓝海大脑冷板液冷解决方案

蓝海大脑通过多年的努力,攻克了各项性能指标、外观结构设计和产业化生产等关键技术问题,成功研制出蓝海大脑高性能冷板散热解决方案,支持快速图形处理,GPU 智能运算,性价比高,外形美观,满足了人工智能企业对图形、视频等信息的强大计算处理技术的需求。

快速、高效、可靠、易于管理的蓝海大脑液冷工作站具备出色的静音效果和完美的温控系统。在满负载环境下,噪音控制在 35 分贝左右。借助英伟达 NVIDIA 、英特尔Intel、AMD GPU显卡可加快神经网络的训练和推理速度,更快地创作精准的光照渲染效果,提供高速视频和图像处理能力,加速AI并带来更流畅的交互体验。

深度学习液冷服务器系统突破传统风冷散热模式,采用风冷和液冷混合散热模式——服务器内主要热源 CPU 利用液冷冷板进行冷却,其余热源仍采用风冷方式进行冷却。通过这种混合制冷方式,可大幅提升服务器散热效率,同时,降低主要热源 CPU 散热所耗电能,并增强服务器可靠性。经检测,采用液冷服务器配套基础设施解决方案的数据中心年均 PUE 值可降低至 1.2 以下。

液体冷却方案名词解释

一、冷板式液冷

冷板式液冷是指采用液体作为传热工质在冷板内部流道流动,通过热传递对热源实现冷却的非接触液体冷却技术。其中,热量通过装配在需要冷却的电子元器件上的冷板,再通过冷板与液体工质的热交换实现的方式,称为间接式液冷。其与浸没或喷淋式液冷技术不同,后者主要是指电子元器件(通常在热源表面也需要安装散热翅片,以增加热交换面积)与冷却工质直接接触的冷却方式。

二、冷板

冷板是带有内部流体通道并允许冷却工质流过的热交换器或散热器。冷板安装在需要冷却的电子元器件热表面上,将元器件产生的热量通过液体冷却工质传递到冷量分配单元的板式热交换器。冷板的设计多种多样,可以根据不同的需求对其进行结构设计优化,其内部流道可以是沟槽、扣合翅片、铲齿、折叠翅片等构造。对于一些高功耗或高热密度元器件的散热设计,流道通常还会设计成更复杂的微通道结构,以增加接触面积,提高其散热性能。

冷板基本结构形态包括散热模块和固定模块,固定模块设计应最大限度满足扣合力正压冷板。根据散热模块和固定模块之间的连接方式可分为分体式液冷冷板(冷板散热模块与固定模块由螺钉或其他方式连接,可根据需求进行拆卸与组装),以及一体式液冷冷板(冷板散热模块与固定模块不可拆卸与组装)。根据密封形式则可分为密封圈组装式或焊接密封等。

三、混合冷却

指同时使用风冷和冷板液冷的方式。常见的混合冷却是对高功率和高热密度元器件使用液冷冷却,而对于低功率元件的冷却则使用风冷的方式。以 IT 设备的冷却为例,对于 CPU / GPU 或内存模块上会安装液冷冷板,而风扇则用于形成强迫风冷对其他元器件进行冷却。

此外,还有一种将冷板、泵及换热器集成在计算系统里面的设计应用。所以采用混合冷却方式的设计仍然需要空调,来满足非液冷元器件的散热需求。为进一步降低机房空调的功耗,可以在机柜门安装液冷背板门对热空气进行初步冷却,这种方式可以用于高温机房的设计,甚至可以取消机房空调,构成全液冷冷却设计。

四、全液冷却

全液冷却指的是将所有元器件产生的热量全部通过液体冷却工质传递至外部环境的冷却方式。对于 IT 设备,采用全液体冷却大致有两种方式,一种是通过冷板设计实现服务器热量完全导入冷却工质,一种是通过冷板和液冷背板门组合的方式将服务器的热量全部导入冷却工质。前者需要通过设计一个与服务器设计相匹配的复合冷板组件为所有元器件提供冷却工质的热传递路径。

对于全液冷机架的设计,机架通常会有一个冷板背板门安装在热空气出口,将服务器中的热量传递到液冷工质中。全液体冷却方式只需要最低能耗限度的室内空调,来消除残余在空气中的热量。在可接受高温机房的设计中,室内空调甚至可以取消,以进一步降低数据中心 PUE。

五、单相和两相冷却工质(冷却工质 / 冷媒)

依据冷却工质在吸收或释放热量过程中可能保持液相或产生气液相转化的特性,可将冷却工质区分为单相冷却工质和两相冷却工质。对于在整个运行过程中保持单一液态的冷却工质称之为单相冷却工质,通常包含水基冷却工质和非水基冷却工质两类。

水基冷却工质中,以纯水为溶剂,不添加任何其他材料或只依据耐零下温度需求添加一定比例(0%~60%)防冻剂构成的,为纯水液,需要配合工质纯化模块使用;以纯水为溶剂,添加缓蚀剂、杀生剂等,并依据耐零下温度需求添加一定比例(0%~60%)防冻剂构成的,为配方液,使用时需要定期取样检测添加剂状况。非水基冷却工质,一般为沸点不低于水的氢氟醚、全氟碳等介电液体或矿物油,使用时需在浸润材料兼容性上应进行严格审查和测试。

对于在吸热和放热过程中会发生气液两相转换的液体,称之为两相冷却工质。两相冷却工质的沸点通常较低,主要通过液体的气化潜热吸收热量,在循环中形成携带热量的两相流。两相冷却工质通常是介电液体或冷媒。不同两相冷却工质的沸点通常不同。

冷板式相变液冷技术的冷板有时也被称为蒸发器。在本文中,冷板指用于单相冷却工质或两相冷却工质的冷板,冷却工质指单相或两相冷却工质。冷却工质和所有暴露在冷却工质中的材料(称为浸润材料)之间必须具有相容性,以降低在长期工作环境下腐蚀、加速老化、渗透等风险。且即使在确保冷却工质和所有浸润材料相容,在实际操作中仍然需要定期检查冷却工质,以确保冷却工质的品质稳定可靠。

六、冷量分配单元

冷量分配单元的主要作用是隔离一次侧与二次侧回路,并在其内部提供一次侧与二次侧的热交换能力。冷量分配单元主要分为机架式(嵌柜式)、机柜式和平台式等。机柜式 CDU 通常为一个或多个 IT设备的机架甚至整个机房提供冷却,具备比机架式 CDU 所需更大的冷却能力和供液能力。平台式 CDU 通常是一种带有更大冷却能力和供液能力的 CDU 类型,最大冷却能力可达到 10MW 以上,可以为整个数据中心提供冷却。为避免 CDU 故障造成冷量不足,需要结合实际情况充分考虑 CDU 的 N+1、N+2 冗余备份,或对 CDU内部的泵驱模块进行 N+1 冗余设计,以确保足够的冷量用于冷却 IT设备,或构成冗余设计实现 CDU 的可在线维护。

CDU 中通常包含热交换模块、一二次侧过滤组件、二次侧泵驱模块、定压脱气模块、定压补液模块、恒温恒压监控模块、漏液检测模块、冷却工质品质参数(电导率、pH)检测模块、控制系统、防凝露及去离子装置等。其中,二次侧过滤组件的过滤能力须匹配冷却回路中对颗粒最敏感的部件,如自封式快换接头和微通道冷板的需求,以确保冷却工质中潜在的颗粒不会在流体回路中造成堵塞,并阻止冷却工质的流动,或插拔时部件失去自封能力。建议过滤精度为 50 微米。

七、机架式冷却工质供回液歧管

冷却工质供回液歧管主要功能是将从 CDU 分配进入各机架内的冷却工质再次均匀分流到各 IT 设备,并从冷板出液端收集回流液体。歧管必须能够提供符合 IT 设备需求的冷却流量,确保机架内冷却工质流量分布均匀,保障 IT 设备可在线移出或接入液冷系统。这些因素在设计中必须仔细考量。

八、自封式快换接头

自封式快换接头(QD)用于帮助维护人员检修而提供快速连接,或断开 IT 设备或其组件与液冷系统的连接并确保具备自封功能,进而确保冷却工质不会泄漏,液冷系统运行不受影响,IT 设备可持续安全运行。自封式快换接头一般有两种设计,即手动插拔式和盲插式。手动插拔式是需要人为手动握住快换接头,进行插拔连接操作的接头设计,可分为单手插拔和双手插拔式,因为涉及手动插拔动作,需要保证足够插拔操作空间。而盲插接头是一种通过压力将公母头插入导通或拔开断开,无需手动操作的接头设计,需要通过精确的滑轨设计或定位销来辅助定位连接,并要保持导通所需的压力,以避免公母头滑移导致接头液路断开。

 

你可能感兴趣的:(深度学习,5G,人工智能)