大模型引发“暴力计算”,巨头加速推进液冷“降温”

点击关注

大模型引发“暴力计算”,巨头加速推进液冷“降温”_第1张图片

文|姚悦

编|王一粟

一进入部署了液冷服务器的数据中心,不仅没有嘈杂的风扇声,甚至在不开空调的夏日也完全没有闷热感。

在大模型引发“暴力计算”的热潮下,数据中心的上下游,正在加紧推进液冷“降温”。

半年来,服务器厂商在液冷产品上纷纷推出新的解决方案。比如,中兴通讯的新G5系列服务器,支持不同的冷板式液冷方案,从CPU液冷到内存条散热+VR液冷;联想升级海神温水水冷系统,可实现服务器全水冷无风扇设计;新华三也发布全栈液冷解决方案,包含G6系列服务器、核心路由器、接入交换机;中科曙光子公司曙光数创8月发布了“冷平衡”战略,是特别针对数据中心算力、成本、能耗三元平衡问题,推出的全栈液冷数据中心技术与全生命周期一站式服务;去年年底华为推出全场景液冷“天成”多样性算力平台。今年,华为昇腾再推集成天成液冷的算力集群,可以支持万卡规模。

大模型引发“暴力计算”,巨头加速推进液冷“降温”_第2张图片

“在‘东数西算’‘双碳’大背景下,不断提升的功率密度和PUE(能效指标,越接近1越优)设计要求已成为行业面临的主要问题,液冷技术具有高密低碳等优势,已经成为应对数据中心散热压力和节能挑战的必由之路。”中兴通讯数据中心产品线规划总工翁建刚表示。

而就在去年,面对液冷,当上游设备厂商活跃时,中游的数据中心还顾虑重重,保持观望。但现在,像企商在线这样的中游企业也已经积极规划液冷设施,足见液冷已经成为行业共识。

企商在线IDC能力中心售前经理徐涛对光锥智能表示,公司已经在接管客户的一些AI业务,AI服务器的功耗是通用服务器功耗的十倍左右,风冷的局限性日渐明显,必须尝试液冷。

大模型引发“暴力计算”,巨头加速推进液冷“降温”_第3张图片

服务器厂商的积极布局,很大程度上来源于客户的需求逐渐明朗。

数据中心占有半壁江山的三大电信运营商在6月亲自下场,联合发布《白皮书》,提出“三年景愿”:即2023年开展液冷技术验证;2024年开展规模测试,新建数据中心项目10%规模试点应用液冷技术,推进产业生态成熟;2025年及以后开展规模应用,50%以上数据中心项目应用液冷技术。

“现在液冷基本上所有内容已经通过验证,进入一个规模扩张的阶段。”近期,工信部直属研究机构赛迪顾问的液冷领域分析师袁钰明确当前液冷所处阶段。

其实,液冷并不是新技术,其早已被应用于工业、航空领域。一说,阿波罗登月计划,就将液冷用于宇航员体温控制。在数据中心领域,液冷在上世纪60-90年代就崭露头角。但后来随着计算技术迭代功耗下跌,又被“冷落”。

从被“冷落”到“翻红”,液冷经历了什么,又将面对什么新挑战?

01 “暴力计算”亟需液冷降温

风冷是过去很长时间内,数据中心的主流温控方案,以空气为冷却媒介。液冷和风冷最大的区别,就是冷却媒介不同,“液冷”利用矿物油、氟化液等绝缘低沸点的冷却液作为冷媒,通过热交换将服务器的热量排出。完全绝缘、无腐蚀性的冷液,单位体积价格堪比茅台、五粮液。

液冷之所以被数据中心重新重视,根本原因是,后摩尔定律时代,芯片、服务器的功耗再呈上升趋势,随之产生更高的温度。

“那一次更让我深刻理解了温度对于服务器的影响。”有着十余年IDC售前经验的徐涛回忆从业过程中遇到的设备散热对服务器运行影响的问题,“客户规划的服务器功耗100多瓦,实际装的300多瓦,而且单机柜实际密度也比规划高,结果测出服务器温度到了六七十度,直接导致故障率是原来的10倍。”

大模型引发“暴力计算”,巨头加速推进液冷“降温”_第4张图片

图源曙光数创招股书

针对数据中心高温问题,头部设备厂商更加大力推进液冷,目的大多集中在降低PUE,具体则从技术、方案等不同角度着力。

据媒体此前报道,中兴通讯建设的全液冷数据中心项目中,液冷散热的比例已经达到了70%。公司今年1月发布的G5系列服务器新品支持液冷散热技术,采用冷板式液冷散热,可实现数据中心PUE降至1.1,冷板&管路高可靠连接,全管路智能监控,漏液秒级告警。

大模型引发“暴力计算”,巨头加速推进液冷“降温”_第5张图片

联想则从液体温度着眼,首创海神温水全水冷技术。不同于常见的45-50摄氏度的技术,联想通过数据分析,认为进水50摄氏度、出水60摄氏度,可以获得最佳能耗比。海神温水全水冷技术实现了服务器全水冷无风扇设计,支持多类型GPU,散热效率达98%,甚至可以支持数据中心PUE降至1.1以下。

后摩尔定律时代,芯片的功率越来越高。尤其是大模型带来的“暴力计算”,例如,用于训练ChatGPT的英伟达 A100服务器的最大功耗已达6.5kW。而此前,传统的服务器功率400W左右已经算很高。

与此同时,AI产业快速发展,致使算力需求飙升。但受制于建设面积等客观因素,增加单机柜功率密度,成为调和快速的算力需求与有限数据中心承载力的共识方案。

服务器功耗越来越大,温度越来越高,所占空间越来越小。可以想象一下,一堆爱出汗的人,挤在狭小的屋子。

越来越高的温度对于服务器来说是非常大的隐患。

“芯片温度每升高10度,故障率就会翻倍,寿命也会减半。”徐涛说,所以散热已经是当前智算面临的最大问题之一。

但是,风冷已经被逼近甚至突破极限。每机柜15-25kW的功率密度是“未使用背板换热器等其他制冷设备”的风冷解决方案上限,仅勉强扛得住2-4个NVIDIA A100。

华为集群计算业务副总裁王振华表示,当芯片的典型功耗超过300W,每平方厘米的功耗超过90W的时候,风冷难以为继。而当前业界的主流芯片产品,功耗已经超过这个阈值。

“机柜密度不断提升,会带来整个制冷系统的造价成本提升。”曙光数创总裁何继盛表示,“甚至单机柜的功率密度达到一定程度,继续增加投资都不能满足数据中心的散热需求。”

另一方面,随着“碳达峰”、“碳中和”等战略落地,国家到地方对于PUE明确的“红线”,成为刺激液冷产业加速更为直接的原因。

4月,多部门发文,2023年6月起数据中心PUE不高于1.4,2025年起数据中心不高于1.3,当前行业平均PUE为1.5。更多的地方政策,则对数据中心提出了更加严格的要求。

相比之下,液冷的单位体积的比热容足有风冷的1000倍以上。(比热容越大的物质,温度每上升1摄氏度,所吸收的热量越多);液冷PUE普遍在1.1,甚至不断逼近1.0。

新华三已经设计了PUE<1.1更节能的数据中心,并获得了金融业数据中心UptimeT4认证。2022年5月,新华三推出UniServer R4900LC G5液冷服务器,支持NVIDIA A100 80GB PCIe液冷式GPU,相比于传统风冷机型,整机功耗可降低21.3%,全年PUE均值为1.042。

新华三集团液冷服务器产品经理何伟宇认为,随着产品的快速迭代,单机柜功率密度的持续演进,对于数据中心的散热系统提出了更高的要求,像北上广深等一线城市对于空间和散热的需求则更为严苛,普通风冷机房的制冷效率已经大大制约了新技术和高算力的演进,这在一定程度上也推动了液冷技术在数据中心的发展和普及。

液冷作为更有效解决数据中心高密度散热的新兴技术,已经成为了行业的共识和确定趋势。

“去年被业内称作是数据中心液冷元年,今年已经有越来越多的客户开始接受液冷方案,液冷在整个市场渗透率有望做到20%-30%。”宁畅总裁秦晓宁曾表示。

行业格局来看,海外液冷厂商具有先发优势,中国厂商后来居上实现突围。2015-2018年,中科曙光、华为、联想、阿里巴巴等一众国产厂商,先后实现了液冷服务器大规模商业应用项目的落地,实现弯道超车。

据《中国液冷数据中心发展白皮书》在2020年对于中国液冷数据中心厂商竞争力的研究,基于产品营收、市占率、客户反馈等指标,中科曙光为市场的绝对领导者,华为、阿里巴巴、联想紧随其后。

大模型引发“暴力计算”,巨头加速推进液冷“降温”_第6张图片

02 液冷的“成本账”

“三年前接到调研任务时,液冷还是'黑科技',但现在已经进入了应用拓展阶段。”袁钰近期表示。

液冷“杀回”数据中心,进入拓展期,重要原因之一就是能算得来成本账。

液冷技术按照液体与发热器件的接触方式,可分为“间接接触型”和“直接接触型”两大类。冷板式液冷是最典型的间接接触型液冷技术;直接接触型主要有浸没式液冷和喷淋式液冷两种技术,浸没式液冷最为典型。通俗讲,对应就像人降温措施,冷敷、冷水淋浴或直接泡冷水澡一样。

浸没式和喷淋式液冷技术冷却效果更好,但由于冷板式的服务器芯片等发热器件不用直接接触液体,所以冷板式液冷对现有服务器芯片组件及附属部件改动量较小,可操作性更强、目前成熟度最高、应用最广泛,最重要的是成本更低。

翁建刚表示,测算来看,功率密度到达一定程度,液冷方案相比风冷已具备经济优势,3年左右能够实现投资收益平衡。不仅如此,随着液冷市场规模的扩大,相关基础设施成本也将进一步降低。

曙光数创副总裁张鹏近期也表示,服务器把散热器去掉,换上冷板,可能成本会有一些上升,但不需要冷机、空调,以及工程上的一些东西,初投资的时候已经省钱。

据招商研报,数据中心TCO(总成本),在不计算服务器折旧与服务器运营成本的情况下,当单机柜功率>15kW时,冷板式液冷TCO优势明显,当单机柜功率>30kW时,浸没式液冷开始出现优势。

大模型引发“暴力计算”,巨头加速推进液冷“降温”_第7张图片

此外,无论任何一种液冷路线,相较风冷,都已经在节省电和空间上具备成本优势。

根据开源证券研究所的统计结果,一个数据中心的能耗分布中,散热系统的占比高达40%。也就是说,数据中心每耗费一度电,只有一半用在了“计算”上,其他的则浪费在了散热、照明等方面。计算和散热几乎陷入了一场零和博弈,计算量越大散热消耗的电量越大。

华为昇腾AI计算集群也已经采用液冷散热。液冷方案本就比传统风冷方案更省电,昇腾采用了直接把冷夜注入每块芯片的精准供给方式,相比浸没式,可以降低日常运维的成本。

“精准供给取决于芯片板卡上都设置传感器、电控阀门,再加上中央控制,可以实现为不同芯片在不同的负荷下,提供精细化冷量输送。”北京昇腾人工智能生态创新中心CTO杨光向光锥智能介绍。

大模型引发“暴力计算”,巨头加速推进液冷“降温”_第8张图片

华为昇腾门头沟数据中心,拍摄:光锥智能

阿里云技术专家王鹏曾表示,如果全国的数据中心都采用浸没液冷技术,预计到2025年,一年可节省上千亿度电。

液冷散热效果强大,数据中心不用采用疏密手段。尤其是对于一二线的数据中心来说,液冷的空间成本更突出。

徐涛透露,他们有数据中心,因为接了一些AI业务,原来规划246个机柜,但现在GPU服务器增多,为了避免数据中心温度过高,只能进行疏密,所以一下就砍到了六七十个机柜。但石景山区的数据中心上了液冷设备空间利用率就会大幅提升,同时可以降低数据中心的PUE,降低能耗水平。

“二三线城市的建筑成本为数千元,北京的建筑成本为数万元,空间成本可以说非常高。”徐涛表示,虽然目前液冷单千瓦成本较风冷高,但考虑到空间利用率以及节省的电费,液冷制冷方案,还是值得投入的。

03 规模扩张还需跨越“百标大战”

虽然已经初步跨过降本这道栏,接下来液冷扩张却还要面临新的问题——“百标大战”。

以冷板式液冷为例,主要包括机柜与服务器,交付方式分为两种,一体化交付与解耦交付。解耦交付是液冷机柜与液冷服务器之间遵循用户统一制定的接口设计规范,机柜与服务器解耦,可由不同厂商交付;一体化交付是液冷整机柜(包括机柜和服务器)由厂商自定标准进行集成设计开发,整机柜由同一厂商一体化交付。

液冷产业链尚不成熟,当前业内尚无服务器统一接口标准,各厂商产品及配件设计标准各异。两种交付背后充满了各方博弈。

对于厂商来说,一体化解决方案的成本一定是更低,开发和交付周期大幅缩短。更重要的是,为了形成客户壁垒,厂商也多选择以产品一体化的交付模式为主。这导致各厂商的产品之间兼容性差。

不过,数据中心用户会对一体化交付充满顾虑。

一方面,用户会有迁移需求,比如达成新战略合作,或者原本就是临时租用机柜,以及后续机柜需要扩容等。如果液冷的设施绑定,迁移成本会增加。另一方面,设备与设施绑定,可能会让用户失去议价权。一次性批量采购,设备更新速度快,大概率只能保持固定供应商,如果选择其他产品,还需要对基础设施进行改造。

因此,考虑到用户需求,数据中心不愿意接受一体化方案,就会要求设备厂商解耦。毕竟设备厂商目前还处于充分竞争阶段,厂商也就不得不解耦交付。

大模型引发“暴力计算”,巨头加速推进液冷“降温”_第9张图片

当前超聚变、华为、浪潮、曙光、新华三等主要液冷服务器厂商皆拥有自己的一体化交付方案与解耦交付方案。

不过,解耦是能解,解耦也可带来供应商多样化,有助于控制成本,能够让各供应商发挥自身优势。但是解耦要求甲方协调各个供应商做好对接,过程就会非常耗时耗力。“每一个环节都得多方密切沟通,也得紧盯落实,一旦出现一点差错,就导致系统性问题。”徐涛说,相对于一体化交付,没有行业标准,解耦就会变成项目制。

各方拉锯中,首当其冲的就会是设备厂商。

曙光数创是国内最早布局液冷的企业,液冷基础设施市占率接近6成。但曙光数创今年年中报显示,冷板液冷数据中心基础设施产品,营收收入同比减少42.55%,营收成本同比减少33.63%,毛利率同比减少11.14%。年报中解释,收入波动的原因是,公司产品是非标准产品,但目前数据中心建设标准各异。

继而,下游会因为种种问题,犹豫尝试液冷方案,导致液冷推广遇阻。

曙光数创也呼吁行业统一标准。张鹏表示,首先如果行业标准对于供水的温度、温差、压力等能够统一,对液冷成本进一步下降是非常有意义的,也是他们在实际落地中遇到的问题。

不过,行业的标准形成并不会一蹴而就。而徐涛认为,各方博弈的滚动过程,行业的发展难免会有波折很有可能“进三步退一步”。当然,这也是新兴技术必然经历的过程。

华为昇腾已经宣布将会发布业界首个万卡级的集群,也将配套液冷方案,使用天成平台采用的“液冷+电源+网络”三条总线的设计思路。

企商在线石景山公共算力中心预计明年8月就交付,虽然还没有行业标准落实,企商在线则选择部分高功耗算力采用液冷方式一体化建设,然后直接租算力给客户。

徐涛表示,后续随着行业发展一定会有新的方案,考虑到芯片功耗越来越高,风冷能力有限,同时“碳达峰”“碳中和”的要求,液冷作为确定趋势,当前先做起来比较重要。

欢迎关注光锥智能,获取更多科技前沿知识!

你可能感兴趣的:(液冷)