“东数西算”数据中心下算力、AI智能芯片如何发展?

智能芯片 | 量子力学 | 深度学习

生物医药 | 冷冻电镜 | 东数西算

随着“东数西算”政策的落地,高性能计算、深度学习、人工智能、量子力学、生物医药、智能芯片、大数据和冷冻电镜等领域得到快速发展。那么“东数西算”下如何解决算力面临的问题与挑战呢?数据中心如何更好的节能减排呢?AI芯片如何在“东数西算”下改革发展呢?

以“东数西算”做契机解决算力面临的问题

“东数西算”的目的是构建更绿色、更平衡、更高效的国家算力网络体系,以满足各行各业数字化转型和新时代数字技术与生活场景加速融合带来的海量计算、传输和存储需求,最大限度地实现数据中心产业的绿色集约发展,促进资源统筹利用和数字经济建设。可以预见,“东算西算”工程将发挥类似于众所周知的“南水北调”(建设国家高品质水网)、“西电东送”(建设国家高品质电网)的重要作用和价值,与当前国家重大政策如西部发展、生态文明建设、双碳战略等紧密联系,同步发展。

“东数西算”数据中心下算力、AI智能芯片如何发展?_第1张图片

从整体上,“东数西算”将围绕“五个一体化”的工程目标建设:

一、网络一体化

围绕集群建设数据中心直联网,建立合理网络结算机制,增加网络带宽,提高传输速度,降低传输成本。围绕集群安全有序推进新型互联网交换中心和互联网骨干直联点建设。

二、能源一体化

从国家双碳战略总体规划出发,充分挖掘西部丰富的风、光等可再生资源,应对可再生能源波动,扩大清洁能源市场化交易范围,推动建立清洁能源消费市场化机制。从整体规划层面统一分配数据中心集群能耗指标。

三、算力一体化

在集群和城区内部两级算力布局下,推动各行业数据中心加强一体化联通调度,促进多云之间、云和数据中心之间、云和网络之间的资源联动,构建算力服务资源池。

四、数据一体化

搭建开放数据共享、政企数据融合应用等公共数据流通设施平台。尝试多方安全计算、区块链、隐私计算、数据沙箱等技术模式,构建可信数据流通环境。

五、应用一体化

开展一体化城市数据大脑建设,选择公共卫生、自然灾害、市场监管等应急场景。试行“数据靶场”建设,探索不同应急情况下的数据利用规律和协调机制。

“东数西算”数据中心下算力、AI智能芯片如何发展?_第2张图片

回顾过去,中国在建设国家超级计算中心和基础服务环境方面已经积累了十几年经验,取得了举世瞩目的成就。在超大型数据中心和云计算平台建设方面,一些基础电信运营商和云服务提供商积累了大量经验,在该领域已经进入国际先进行列。然而,与预设的“东数西算”的目标相比,面对更广区域、更多方参与、更高质量要求的数据和应用流动场景,现有的技术储备、工程建设水平和市场化程度仍面临诸多挑战。

在小蓝看来,“东数西算”工程能够从以下三个方面发力,解决遇到的问题和挑战。

一、通过“东数西算”解决算力分布式使用面临的挑战

“东算西算”项目最显著的特点是提出了算力联接网络,异地算力与网络协同的实现思路。这种思路希望突破传统计算和数据中心算力提供服务的局限,在目前已经取得广泛成功的大数据中心和云计算平台上实现广域扩展和顶层优化。然而,算力资源传统上来自计算和数据中心的内部资源,并且被集中部署和管理。

要满足算力整合的需求,需要算力的无缝分布式使用,目前业界还没有成熟可靠的解决方案。计算的实施是以数据为基础的,算力的流动要完成高效的数据流动,这就需要更加完善和先进的数据平台、服务和相关制度。在技术层面,可以借鉴数据网格、数据中心网络、广域和分布式文件系统的技术经验,整合新型存储介质和架构,推动新一代分布式数据访问协议、存储系统和基础软件(分布式数据库和分布式文件系统)的演进。在政策层面,应进一步加快数据要素市场体系建设,推动数据市场交易模式落地。

“东数西算”数据中心下算力、AI智能芯片如何发展?_第3张图片

二、通过“东数西算”解决算力交付方式面临的困境

在云服务中,算力作为IaaS资源使用和管理。但是,单一的云平台的调度范围是有限的,过大的管理调度范围会导致云服务交付无法保证服务质量。无论是采用资源交付或者云服务交付都面临困难。前者需要一体化的资源管理平台,实现起来相对简单,对用户要求高;后者需要统一的云服务平台,实现起来将引入更多的服务因素,难度更大。

在这方面,超算互联网正在做一些初期工作。“十四五”前期启动“国家高性能计算环境领域应用平台及服务体系”项目,建设高速网络连接无锡、广州、北京、天津、深圳、长沙、青岛多个国家超算中心,整合开发超算资源管理环境、通用应用函数库和工具软件,建立复杂机械系统与量子物理体系、生物与材料、环境治理与灾害防治三个重点领域的应用资源。跨不同计算架构的应用程序的有效部署仍然是这个项目面临的挑战和技术突破。

同时,算力本身具有位置分散、能力各异和动态变化的特点,导致算力难以计量,从而影响算力使用结算系统的建设,进一步损害产业运营。因此,迫切需要做好算力感知、算力建模和算力评估工作。面向全网的算力资源(计算、存储和网络),对各类算力资源的状态、动态和分布进行分析、测量和建模,实现基于干扰分析的算力资源评估,这是算力资源发现、交易和调度的基础。

“东数西算”数据中心下算力、AI智能芯片如何发展?_第4张图片

三、通过“东数西算”解决算力使用面临的安全问题

数据信息传输过程中,物理设施、网络安全、应用安全、数据安全和信息安全等方面面临多重风险。而“东数西算”工程实现的算力资源开放使用则面临更多的信息安全问题,算力资源从申请到使用再到结算清退过程中至少跨越使用方和供给方的边界,一旦有风险,不仅导致算力使用方出现漏洞,也会引发算力供给方的隐患,从而给整个算网资源体系带来风险。

如何在数据开放共享、大范围多方融合应用的需求和场景下实现端到端的安全,需要技术突破和政策制定等多方面努力,例如:采用和部署内安全的基础设施,合理规划网络的安全区域以及不同区域之间的访问权限,试验多方安全计算、区块链、隐私计算、数据沙箱等技术模式,做好网络安全态势监测。

“东数西算”数据中心下算力、AI智能芯片如何发展?_第5张图片

算力设施是数字经济健康发展的底座,对推动数字经济健康发展作用巨大。有数据显示,算力指数平均每提高1个百分点,数字经济和GDP将分别增长0.33%和0.18%。算力网络的技术理念已逐步在行业中达成共识。

可以预见,“东数西算”工程将为我国以数据为中心的产业发展带来新的契机,并持续提升数据资产对于经济发展的贡献度,带动广大西部地区参与智能化引导的数字经济浪潮当中。

尽管面临上述一系列挑战,随着“东数西算”工程的逐步建设,大数据、云计算、高性能计算技术、新一代网络技术、端到端安全技术,以及其相关产业和政策法规的快速进步与完善,创新开放的业态和场景不断涌现,未来将逐步实现网络与计算的一体融合,有效赋能数字经济。

“东数西算”下芯片如何改革发展

多年来,移动处理器厂商一直致力于优化设计,以在有限的功率预算、存储空间和带宽内获得最佳性能。在过去,显然这些考量因素在数据中心或个人电脑(PC)和其他市场中没有得到重视。如今,传统数据中心和PC市场的变革正在悄然发生——改变处理器的设计规则,让开发人员重新考虑其芯片架构,以获得更高的性能功耗比。

“东数西算”数据中心下算力、AI智能芯片如何发展?_第6张图片

一、移动处理器设计原则运用于PC和数据中心

越来越多的云游戏、数据挖掘、人工智能、数据分析、高性能计算都在云端实现。虽然这些应用的要求不同,但在不断增加计算量方面是相同的。

数据中心无法通过扩大物理占地面积来满足这一需求。为了将运营费用(OpEx)控制在可接受的范围内,实现净零目标,企业需要在有限的空间内增加计算密度,从而获得更高的计算性能。图形处理器(GPU)、中央处理器(CPU)和人工智能(AI)加速器等处理元件必须在最小的功耗、散热和面积预算内实现最高的性能。因此,根据移动设计原则设计处理器是一个理想的起点。

分析PC市场的走势也可以得出类似的结论。在传统的PC模式下,大部分功能被集成到独立的模块组中。然而,随着大多数组织希望扩展混合办公模式,人们逐渐用笔记本电脑取代台式机。集成了越来越多的功能(包括图形处理、神经网络加速、安全、I/O等。)集成到具有统一存储器架构的单个系统芯片(SoC)中,不仅可以提高性能,还可以将功耗保持在最低水平。因此,下一代PC处理器看起来越来越像智能手机处理器。

“东数西算”数据中心下算力、AI智能芯片如何发展?_第7张图片

二、大型科技公司借助定制芯片设计实现差异化

随着摩尔定律的终结,行业已经不可能每两年提升一次业绩。在此背景下,企业纷纷加入这场设计“竞赛”,用最好的芯片创造最好的用户体验。

大型全球科技公司早已深谙此道,并已做好准备。它们正着力自主设计定制芯片,以用于消费类产品、PC或数据中心等。这些公司从现成的芯片转向定制芯片,希望更好地控制设计,获得优势。所以我们看到亚马逊投资于Graviton CPU设计,谷歌推出了以TPU为中心的Tensor CPU。苹果的M1处理器将为Mac电脑带来一款根据移动设计原则优化的芯片,提供更高的集成度和卓越的性能。

“东数西算”数据中心下算力、AI智能芯片如何发展?_第8张图片

三、OEM替代方案

对于没有内部软硬件设计团队,尚未着手开发定制芯片的OEM来说,面临的挑战是如何让自己的设计脱颖而出,与高度优化的架构竞争。OEM厂商使用的芯片大多都是现成的,这可能会让他们处于劣势。许多为PC和数据中心设计的芯片是“暴力”解决方案。虽然可以提供所需的性能,但是通常过于耗电,占用太多的内存/带宽,缺乏竞争力。此外,这些芯片受限于可用的特定软件和操作系统。

部分移动市场的SoC供应商已经开始进入数据中心和PC市场,希望瓜分现有玩家的部分市场份额,但其数量少之又少,难以帮助OEM厂商实现创新和成本控制的差异化。因此,一些行业替代方案正在应运而生。我们看到很多厂商都在考虑基于RISC-V架构的CPU解决方案。但是,单一的CPU设计并不能完全解决OEM面临的激烈竞争困境。OEM厂商需要着眼于整个数据中心的架构来提高整体方案的创新性,从而增加自己的竞争力。

“东数西算”数据中心下算力、AI智能芯片如何发展?_第9张图片

四、可扩展的异构架构是关键

通过异构计算,灵活使用CPU、GPU等计算单元,实现硬件的最大利用率以达到计算性能的优化,同时满足效率和功耗比的优化。异构计算架构为数据中心不断增长的计算需求提供了灵活的阵列工作方案。目前,许多半导体制造商正在研究相关产品和应用,以增强OEM市场竞争力。传统GPU IP公司Imagination在去年推出了CPU产品线,并加强了异构计算的研发,意图通过优化产品组合,为客户提供更加完善的异构计算解决方案,从而更好地服务于客户,满足未来高性能计算的需求。

五、移动GPU奠定基础

移动GPU是创建高效异构设计的理想起点。相比试图将高端GPU强行纳入移动功耗预算,将移动GPU升级应用于数据中心和PC领域将更有意义。因为移动GPU天生就是“小而美”。移动GPU厂商开发拥有很多专利技术,最大程度的实现了GPU的高性能低功耗。在数据中心和PC广泛追求高性能GPU的背景下,这些技术优势可以让移动GPU厂商更具竞争力,为OEM提供更多的管理附加值。

提到移动GPU的专利技术,就不得不再次提及Imagination(专注于GPU设计的老牌企业)。和对手相比,Imagination多年来专注于GPU领域的研究,尤其是在更复杂的GPU渲染领域。Imagination是许多技术的先驱开发者,如GPU硬件虚拟化、分块式延迟渲染(TBDR)、实时硬件光线追踪(Ray Tracing)等。分块式延迟渲染(TBDR)技术将几何数据划分为小区域(图块),统一处理。由于每个图块都经过光栅化和单独处理,所以渲染的尺寸非常小,因此所有数据都可以保存在快速运行的存储器中。这项技术为M1的图形处理奠定了基础。

“东数西算”数据中心下算力、AI智能芯片如何发展?_第10张图片

对于诸如安卓云游戏等应用场景,数据中心需要灵活处理多个用户的不同游戏消费场景。在多个小型GPU上处理多个小型并发工作负载的方法比使用传统桌面GPU更高效。云游戏产业链都在强化GPU硬件虚拟化技术的开发应用以降低成本。移动GPU通过向上扩展分散式多核移动GPU架构,使每个GPU既可支持更多用户,同时为云端的许多用户提供更高的能效。

六、设计专用芯片——不仅服务于大型科技公司

SoC制造商需要通过基于移动设计原则设计的可扩展IP内核,以创造高能效、高带宽和高性能的设计。借助这种专为异构架构设计的处理器,可以创建专用、高效的新型解决方案。这可以帮助OEM提供极具竞争力和差异化的产品,牢牢把握企业的未来发展方向。

数据中心节能改造应因地制宜

数据中心节能改造是必然趋势,推动了技术的进步和相关解决方案的发展。从实际情况来看,目前对应的方案主要集中在制冷方式的优化、新能源的利用、运维管理的提升以及余热回收的探讨。

“东数西算”数据中心下算力、AI智能芯片如何发展?_第11张图片

一、制冷模式的优化

据统计,在一个PUE约为2的传统数据中心的总能耗中,IT设备的能耗约占50%;制冷系统的能耗,约占35%。降低制冷能耗已经成为数据中心节能降碳的主要考虑因素,如何选择最佳方案需要因地制宜。

以风冷、蒸发冷却、间接蒸发冷却为例。从冷源的角度来看,风冷和冷源都是室外干球温度;蒸发冷却,冷源接近室外湿球温度;冷源接近室外露点温度的间接蒸发冷却塔。虽然露点温度最低,但冷却方式取决于三个冷源的温差。

“东数西算”数据中心下算力、AI智能芯片如何发展?_第12张图片

以秦岭、淮河、青藏高原为界,该线以北气候相对干燥,湿球温度低,水冷冷源能效优势大。该线以南空气湿度大,蒸发冷却的应用潜力不高,风冷冷源可能具有能效优势。

因此,在优化制冷模式时,不能盲目相信某项技术的能耗更低,还需要结合具体的环境和自然冷源。

二、新能源利用方面

数据中心是一个耗能行业,要实现绿色发展,除了提高能源效率,还必须使用新能源来减少碳排放。

数据中心对此也已经有了相应的探索。张家口怀来大数据产业基地进行了“源网荷储”的超大规模实践,充分利用其丰富的风能、太阳能等优势资源,为数据中心提供新能源用电;近期完工的东岳庙数据中心一期每年将消耗超过2亿千瓦,耗能巨大。然而其供电全部来自于水电,有效地降低了数据中心的碳排放。同时,BIPV(光伏建筑一体化)等太阳能方面的应用也在逐步增加,“东算西算”工程的全面启动也将极大地促进西部新能源的利用。

虽然目前规模较小,但是新能源的探索已经逐渐发展起来。不过,新能源的利用也存在成本问题。在未来的数据中心行业,绿电和绿证的应用比例肯定会大幅增加。目前一些IDC服务提供商正在通过各种方式使用绿电。然而,如何分担新能源在产业链中的应用成本将是影响新能源使用一个需要解决的主要问题。

三、运维管理方面

低能耗数据中心的智能运维已经成为讨论的热点。相应的智能运维系统也已经问世,通过核心配置数据库实现数据共享和流程之间的关联,减少数据误导的发生,实现对人、物、服务的管理,从而提高效率,降低成本,促进数据中心的绿色化发展。但智能运维体系的实施还有待进一步完善。

智能运维不仅仅是对数据中心的监控,还包括与运维人员的交互。运维人员可以使用该系统,并可以根据该系统改进运维。一个理想的运维情况是系统发挥70%的作用,剩下的30%由运维人员优化。

四、余热回收

数据中心的运维会产生大量的热量,能够被利用和回收,具有巨大的能源价值和经济价值,因此受到了广泛的关注。

北京《关于进一步加强数据中心项目节能审查的若干规定》指出,鼓励数据中心充分利用机柜余热等技术。目前,国内已有多家数据中心企业开展相关实践。

同时,余热回收的探索也为数据中心和不同行业之间的跨行业合作提供了可能。在农业生产中,作物生长需要大量的热量和二氧化碳,而数据中心产生的余热正好可以满足这些发展需求。理论上,数据中心工业和农业并行发展是可能的。

“东数西算”数据中心下算力、AI智能芯片如何发展?_第13张图片

中国农业大学水利与土木工程学院副教授、硕士研究生导师袁小艳表示,数据中心耗能巨大,无论采取哪种冷却手段,都可能排出20-40℃废热。呼吁将此废热用于温室冬季供暖;夏季物料干燥如大豆、小麦、玉米、水稻等干燥用能,可设计通过管路切换至干燥室,或送至木材预干窑等以实现相关作用。如果将农业设施温室规划进“东数西算”的建设过程中,在工业CO2排放者与CO2消纳者(设施温室)之间架起科技桥梁,使排放的垃圾成为宝贵的资源。

综合来看,数据中心节能改造涉及政策合规、企业效益成本具有复杂性,需要从制冷、新能源利用、运维、余热回收等方面进行因地制宜的发展,不能盲目迷信新技术,要进行综合考量才能落地相关改造方案。同时,数据中心的节能改造也提供了跨行业合作等多种可能性。

蓝海大脑液冷散热技术

蓝海大脑液冷散热服务器可搭建NVIDIA 4 × A100 / 3090 / P6000 / RTX6000,并将液冷冷板固定在服务器的主要发热器件上,依靠流经冷板的液体将热量带走达到散热目的。冷板液冷解决了服务器里发热量大的器件的散热,其他散热器件还得依靠风冷。所以采用冷板式液冷的服务器也称为气液双通道服务器。冷板的液体不接触被冷却器件,中间采用导热板传热,安全性高。

“东数西算”数据中心下算力、AI智能芯片如何发展?_第14张图片

蓝海大脑拥有完全自主研发和灵活定制能力,是国内最早从事液冷GPU服务器的厂商之一,并且在独到的加固、保密和安全等产品技术领域有深厚的积累。蓝海大脑端到端的解决方案,赋能AI、云计算、大数据、5G、区块链、元宇宙等新兴技术创新和应用,积极为中国新基建、信创、东数西算、社会经济的数字化和智能化转型升级提供坚实的算力保证。同时重视全球合作共赢,与英特尔、英伟达、希捷、华为、飞腾等国内外产业链伙伴保持紧密的战略合作关系,加速产品方案的适配和应用场景拓展,更好地服务各行业用户。

END

你可能感兴趣的:(算法,服务器,大数据)