杨杰董事长在2021年11月2日合作伙伴大会做了《数即万物 智算未来》的主旨演讲,明确提出了中国移动将系统的构建以“5G(连接)+ 算力网络(算力)+ 智慧中台(能力)”为重点的新型信息基础设施,其中,通过“算力网络”打造“连接+算力+能力”的发展战略引起了业内广泛思考,尤其是移动内部掀起了算力网络学习的热潮,也借着风口,谈谈自己对“算力网络”的理解。
【情不自禁加一段】虽然业内普遍不认为运营商是科技创新公司(运营商自己其实也没觉得自己是),但纵观运营商20多年的历史,其网络发展的核心价值始终坚守业务+技术双轮驱动,是无可争议的全球 ICT 行业技术的牵引者,只是在云计算、大数据、人工智能等IT技术的快速发展,掩盖了其ICT技术引领者的光芒,逐渐给人留下了追赶者的印象。个人认为,此次“算力网络”+“算力服务”战略的提出,是运营商全面科技原始创新转型的里程碑,彰显了运营商在数智社会时代技术引领的野心,开辟新赛道,下盘大棋局!
分别从学术、标准、产业界分别来看算力网络的起源:
从标准界来看,2019年2月,国际互联网工程任务组(IETF)成立了网内计算研究组(COINRG, Computing in the Network Research Group),致力于研究计算和网络的深度融合,以改善网络和应用程序性能以及用户体验。2019年10月,由中国联通、中国电信和华为公司共同推动的算力网络顶层架构标准“Framework and Architecture of Computing Power Network”在国际电信联盟(ITU)SG13 全会上成功立项。
从产业界来看,2019 年11月中国联通联合华为发布了《中国联通算力网络白皮书》。
从学术界来看,目前除了三大运营商从2019年开始发表了一些国内论文,并无其他学术论文关注。
智能社会的需求是算力网络诞生的最主要的驱动力。智能社会存在三个阶段(图1):人脑指挥机脑的初级阶段 -> 人机协同阶段 -> 人脑制定规则,机脑自主执行的全息化“智能社会”。智能社会的最大特征就是会产生海量数据,所以对海量数据处理所需的强大算力必将是智能社会最大的需求,强大算力需求必将推动算力从单核、多核走向网络化分布式算力。
”算力网络“从逻辑上,可以有两种理解,考虑概念的准确性和技术的严谨性,不宜无底线的广义化其概念范围:
- 算力的网络:还是一种网络,是围绕算力服务专门打造的一张网络,是面向机器认知,构建起数据、算力、智能之间的高效互联网络,这是网络2030新愿景中的最关键的特征。(CT)
- 算力 + 网络:网络与算力相互融合、相互赋能、算网一体,是云网融合2.0,是智能社会新型的基础设施和服务形态。(ICT)
这两种概念都是对的,只不过算力网络最开始由“算力的网络”的概念提出,逐渐进化为“算力+网络”的融合,本文后续主要以“算力+网络”的定义来展开讨论,在中国移动《算力网络白皮书》中将算力网络定义为:以算为核心,网为根基,网、云、数、智、边、安、端、链(ABCDNETS)等深度融合、提供一体化服务的新型信息基础设施。(略微泛化了一些)
说清楚了算力网络的概念,那我们再来理解下算力网络中的“网络”与基础网络、云网络之间的区别,否则按照广义化的逻辑,最后就都是算力网络,具体可以通过图2理解(引自华为的定义,严谨)。
划重点:算网实现的是业务级互联,提供的是算力路由服务(即要动态的找到匹配业务的最优算力),根据业务需求动态的调整算力位置和算力能力,具备<100ms的时延和按需使用的特征。按照这个定义,我们就得清醒的认识到,基础网络(设备)和云化网络(SDN)是构建算网的基础,但是不是算网,不要浑水摸鱼。(最近确实也在面试中见到了基于DAG有向无环图做6G中智能任务调度研究的同学)
算力网络是对云网融合的深化和新升级,云网融合是算力网络的初级阶段。云网融合在内涵上、阶段上、影响范围上都是算力网络的一个子集。
算力网络中算网协同的场景已经逐渐出现,与云网协同类似,首先要解决数据中心内的需求,然后向用户到数据中心跨广域的需求延伸,但是目前算力网络的底层基础技术并未实现真正的突破,所以从算力网络概念的提出到真正的成熟推广,估计还需至少5年以上的时间。当然,很多厂商还在解决云网融合时代的服务的一体化提供和云网编排问题,但是如果没有底层基础技术的突破,是绝不可能实现真正的算网融合,顶多云网融合换了个新概念而已。
任何革命性的时代变革,都需要底层原创基础技术的突破,那算力网络的基础技术到底是什么?前面也提到,目前算力网络在学术界并没有引起太多的关注,还只是停留在运营商和设备商行业的前沿技术研究上,所以目前来看,要产生革命性的基础和原创技术还是比较难的,但是算力网络也并不是个全新的技术领域,也是基于已有技术基础的跨时代的演进。从目前来看,相关涉及技术领域如下图所示。
个人认为,算力网络最关键的核心技术在算网一体这一层,具体包括:算力度量、算力标识、算力感知、算力路由和在网计算等,其实,存内计算(存算一体)也是可以纳入的,广义上的算必然与存也是一体的。至于其他层级,尤其是服务运营层和编排管理层,虽然会产生大量的业务模型创新、服务模式创新、商业模式创新,但其本质还是生产管理系统,就像运营商的BSS/OSS,是非常关键核心的系统,是核心竞争力的体现,但始终不会涉及到基础科学和原创技术的产生。
目前看,任何一项技术要取得突破,都面临一个商业变现上破旧立新的难题:向下推翻现有的部分理论和技术度量体系,向上推翻应用编程模型。以算力度量技术为例,是否还有人记得AWS大约在2009年左右提出统一计算能力度量概念ECU(EC2 Compute Unit),ECU的提出是为了解决在不同host硬件配置以及不同的虚拟机规格(flavor)之间如何比较其计算能力的问题,即在一个统一的基准上创造一个度量单位来统一计算能力度量衡(关于ECU概念的背景,大家可以自己翻阅资料)。这是一个多么完美的idea,ECU从此一统天下,但现实总是那么无情,由于大部分的用户并不是深度技术玩家,而且ECU还很容易与vCPU这一概念产生疑惑,AWS不得不在2014年将计算能力的度量单位改成了vCPU。
在算力网络中,存在云-边-端三级拓扑,每一级都有异构算力,再加上三级泛在异构算力,如果要实现根据任务需求将算力路由到云-边-端最匹配算力需求的位置,是需要将云-边-端的算力统一量纲,是创造出类似ECU的单位,还是采用MIPS(Millions Instructions Per Second),FLOPS(Floating-point operations per second)等单位,还是要研究出一种动态的算力度量算法或者拟合函数。这里仅举算力度量这个例子来说明算力网络最根本的还是需要底层基础科学的原始创新。当然其他技术,比如任务式的泛在调度,是否需要用户重构编程模型;意图感知是否需要基于DAG图的新的神经网络推理和学习算法;存内计算是否需要新的硬件及编程框架创新。
当然技术的发展是阶段式的,循序渐进,螺旋演进,但我们始终不能回避算力网络与现在的云计算、边缘计算、云网融合等的区别,我们必须要分析清楚,我们做了哪些技术、产品和业务的创新,将我们的服务从云网服务进化成了算网服务。以上,是个人对算力网络一些粗浅的理解,不过算力网络也激发了作为技术人员创新的冲动,后续将会聚焦算力网络具体技术发表自己的一些想法。