《论语》有句话,“治其器必求其用”。经世致用,是中国文化的传统之一。当前,全球进入了数字化、智能化的新纪元,算力作为数字经济时代的核心生产力,也带动算力基础设施的重要性上升到了新的高度,产业处于高速增长期。工信部的数据显示,目前,我国算力总规模超180EFLOPS,已经位居全球第二。
大量算力被制造出来,中国各行各业又存在着多元丰富的应用场景,那么问题来了:这些算力资源是否被充分使用了呢?
有数据显示,目前整体算力利用率不足30%,大量算力仍处于闲置状态,尤其智算水平还需要进一步提升。
在算力供需矛盾凸显的同时,其他产业的高质量发展又对算力提出了更高要求。以用促建、建以致用,推进算力高质量发展,才能更好地满足智能时代千行百业的算力需求,确保算力资源的充分利用。
2023年12月,由清华大学全球产业研究院主办的“算力高质量发展与应用高端论坛”上,各界人士围绕算力高质量发展议题展开深入研讨。浪潮信息首次从技术视角,提出了“高质量算力”的明确定义,总结了高算效、高能效、可持续、可获得、可评估五大特征,为算力高质量发展找到了路径。
理解了“高质量算力”的涵义,算力行业如何走向经世致用,答案也就愈发明晰了。
寻路
算力“致用”的核心矛盾
算力为什么要“致用”?《2022-2023全球计算力指数评估报告》显示,计算力指数平均每提高1点,国家的数字经济和GDP将分别增长3.6‰和1.7‰。让算力充分释放新质生产力的新动能,将惠及每一家企业和每一个人。
因此,更有必要弄清楚一个问题:算力基础设施的利用率不高,究竟是什么情况?
对此,浪潮元脑首席技术官张东提出了算力供需矛盾的核心问题——结构化失衡。
张东认为,导致算力整体利用率不高的原因,主要是供需错位。
一方面,算力需求总量仍在不断增长,AI专项算力、高性能算力等高端算力的缺口大。另一方面,在实际使用过程中,由于现有供给结构与用户实际的算力需求不平衡、不匹配,会出现供需错位的情况,导致大量算力闲置和浪费。
具体来说,不同水平算力的供给结构与实际需求出现错配,比如通用算力的利用率不高,低端算力供给过剩,而大模型、自动驾驶等AI任务需要的智算算力则供给不足。此外,供给端与需求端之间存在“断层”,由于配套服务、生态等不完善,导致企业想买但买不到,很多数据中心的算力资源用不起来。
在此次论坛上,清华大学全球产业研究院副院长李东红教授坦言:“未来一整年的问题,就是怎么避免低水平同质化的算力建设,赋能其他产业的高质量发展。”
致用必先明道。走高质量发展之路,成为中国算力行业解决供需矛盾、优化供给结构、平衡供需关系的必然选择。
接下来的问题是,如何推进算力高质量发展?
路标
算力行业给出首个答案
2023年10月,工业和信息化部等六部门联合印发了《算力基础设施高质量发展行动计划》,明确了高质量算力的发展方向。
到了落地执行层面,要进一步将宏观目标拆解成清晰可行的具体方法与路径。但是,由于参与到算力建设的产学研各方面力量众多,各领域对“高质量算力”这一新兴概念的理解差异大,导致概念纷杂、众说纷纭,迫切需要一个能够凝聚产业共识的明确定义。
浪潮信息在本次论坛上,从技术视角对“高质量算力”提出了明确定义:高质量算力采用先进的计算架构,具备高算效、高能效、可持续、可获得、可评估五大特征。
在张东看来,高质量算力一定是以应用为导向的。“高质量算力”的五大特征也聚焦实用,成为一个破解算力“致用”难题的“五边形战士”。具体来说:
第一个指标高算效,解决的是“算力利用率不高”问题。
以往衡量一个算力基础设施,更关注参数指标,有多少张芯片、多少台AI服务器、总规模达到多少Flops。而面向应用的高质量算力,在建设时就不能只看理论指标,还要关注应用场景下的实际性能和资源利用率。
在张东看来,高算效是算力供需失衡、算力利用率低等矛盾的破局之道。通过实测性能与资源利用率的双重提升,可以提高实际性能,避免算力堆砌及大量资源闲置。
第二个指标高能效,解决“算力能耗成本高”的问题。
算力中心是耗电大户,在双碳背景下,节能降碳成为算力行业的共同使命和硬性指标。过去几年,PUE为算力中心画下了一道“绿线”,但降低PUE,主要着眼于“风火水电”等“运营碳”的减少,在算力全生命周期中,还有一些“隐含碳”的环节,比如从服务器和芯片的设计环节进行优化和减碳。
高能效指标的提出,着眼于算力全生命周期的减碳,用每单位碳排能产生的算力来衡量数据中心的能源利用率,可以综合减少算力能耗成本。
第三个指标可持续,旨在消除算力供应链风险、技术迭代风险、生态封闭风险。
具体来说,要实现供给的可持续,通过完备完整的供应链,保证算力的持续供给;技术的可持续,要具有足够的兼容性,不断升级迭代;服务的可持续,高质量算力的生态开放,服务分层解耦,可以灵活替换,不用担心被某一家厂商绑定。
第四个指标可获得,从便捷性和成本两个维度,解决一些场景算力不易得到或算力价格贵的问题。
便捷性上,高质量算力应该具有普适性,满足各种应用场景复杂多样的算力需求;成本上,高质量算力要具备普惠性,让千行万业低成本地使用。
第五个指标可评估,则解决了“没有度量就不好改进”的问题。
如果没有一个规范的多元的算力评估体系,容易出现低水平同质化扎堆、技术创新方向和产业规划不匹配等问题,高质量发展是很难持续的。可评估的高质量算力,可以更好地辅助用户决策、推动技术创新、明确规划方向。
可以看到,“高质量算力”五大特征,直面算力致用难题,给出了针对性的答案。首个定义,可以视作算力高质量发展之路上一块清晰的路标。
迈步
浪潮信息的产业实践
我们常说行胜于言、质胜于华,不仅要看算力企业怎么说,更要看实际行动。目前看来,浪潮信息做到了。
此次论坛上,浪潮信息不仅首次定义了“高质量算力”,也提出了高质量算力的发展路径,实打实地推动“高质量算力”落地。
比如针对当前算效问题,浪潮信息提出了以系统设计为核心的技术路径,围绕算力的生产、聚合、调度、释放各个环节,进行全局优化,进一步提升算效。
以浪潮信息“源2.0”大模型的训练为例,在生产环节,整合高性能部件,打造多元异构的强大算力机组;聚合环节,消除网络与存储性能瓶颈,进行集群性能调优,构建高效的算力集群;调度环节,通过上层的调度软件高效调度,确保平台稳定运行;释放环节,提供丰富的框架、工具及算法优化,充分释放硬件性能。实现千卡集群平均计算峰值效率高达 54%,是业界平均效率的 1.8倍。
在算力能效问题上,浪潮信息也深入到算力全生命周期,从绿色采购、绿色设计、清洁生产、绿色包装和运输、绿色运营、回收处理等各个环节,实现全面的碳足迹管理,推进全产业链节能减排。
比如设计环节存在“隐含碳”,减碳难度比较高,为此,浪潮信息加大液冷技术创新,业界采用浪潮信息液冷技术的数据中心,相比传统风冷数据中心大幅节能减排,相当于减少1.54万吨标准煤消耗,4.1万吨二氧化碳排放,同时相当于种植231万棵树。
此外,针对可持续、可获得、可评估这三大指标,浪潮信息也积极与产业链上下游伙伴协作,为高质量算力铺平道路。比如,联合中国开放计算组织OCTC(开放计算标准工作委员会),推动先进技术标准的制定,通过一云多芯、分层解耦,消除单一技术路线依赖,实现算力可持续;推动算力基建化,联手合作伙伴推动南京、淮海、青田等智算中心的落地,让算力人人“用得上、用得起”,实现算力可获得;依托OCTC及中国电子工业标准化技术协会,构建一套面向多元算力的评估规范,全面评估高质量算力各项性能要素,让算力可评估。
浪潮信息正以实际行动让“五边形战士”迈出的每一步,都扎根在产业土壤中。
加速跑
进入高质量发展的新阶段
根据《数字中国建设整体布局规划》,到2025年,“数字中国建设要取得重要进展”。算力是新兴生产要素,算力基础设施相当于数字中国的底座,所以,在接下来不到两年的时间中,算力行业必须争分夺秒地补短板、快提速,完成从“总量扩张”向“结构优化”的转变。
首个定义与发展路径的提出,无疑为算力高质量发展按下了加速键。
在此基础上,产学研各方能够进一步消除认知分歧,凝聚产业共识,消除技术和生态壁垒,集中力量去打造千行百业真正需要的“五边形战士”。
把数字中国建在高质量算力的底座上,让算力与千行万业无缝接轨,这就是中国算力行业的“经世致用”之道。