算力网络这个词对大家应该都不陌生,特别是在近两年,以“东数西算”国家战略为指导,三大运营商以及互联网云商都争相发布算力网络相关白皮书或行业规范。
运营商在算力数据中心的布局规划和建设上也在稳步推进,一时间算力网络成为风靡通信行业的热点名词和竞相追捧的香饽饽。一方面,算力网络的愿景是美好的,但从另一方面来看,算力网络从愿景到现实还有一段距离。
算力网络如何创新行业应用,需解决哪些关键难题及具备哪些核心能力,在《算力网络:开启数智世界“新赛道”》一文中全方位介绍了算力网络的畅想,本文将重点关注算力网络的愿景特征、核心能力、行业赋能相关话题。
中国移动算力白皮书指出,要推动算力成为与水电一样,可“一点接入、即取即用”的社会级服务,达成“网络无所不达、算力无所不在、智能无所不及”的愿景,此愿景要求算力网络应至少具备四个特征:
以算为中心、网为根基、多要素融合的算力网络,首先是要提供广泛的网络连接基础和算力接入基础,这也在三大运营商的算力数据中心的布局和网络升级改造中充分体现,例如:中国电信2+4+32+N,中国移动4+3+X,中国联通的M+1+N。通过打造多级的算力数据中心节点,结合建设多年相对健全的网络基础,从而构建一张网无所不达、算力无所不及的算力网,提供广覆盖的算网接入能力。
要求算力的使用就如打开水龙头水就能用一样,而不需要知道自来水的源头在哪里。这就对算力的灵活调度和使用带来了很大难度的挑战,一方面因为底层的算力分布和异构的特点,要为场景选择最合适的算力并调度到位,如GPU适合图形处理、NPU适用人工智能;另一方面则因为算力的使用是与应用场景以及相应的平台或应用软件密切相关联的,如视频渲染,除了需要GPU硬件,还需要3ds Max等渲染软件,通过整合CT侧和IT侧的能力并向用户提供一个友好的用户界面。
算力从本质上来讲是各种架构的硬件资源,硬件成本和复杂性在以前无论是自建设施还是租用,都让使用成本不便宜。因此要降低算力的使用成本,除了从算力的建设布局考虑(如西部建设数据中心集群利用气候优势和低能耗成本等),还要从算力的最优调度、潮汐调度等方面考虑,为满足各种不同时延要求的算力使用场景,如何调度算力资源和网络资源实现全局最优、合理提升算力的使用效率就十分关键。
算力网络可赋能各行各业,工业、金融、教育、医疗、生活、娱乐、科学…...可支撑各种要求,低时延、大带宽、高可靠、高速移动…...社会可以从算力的广泛使用和深度应用中获得更大的价值和收益,这就要求供给侧提供更丰富的能力,而调度侧可根据应用场景要求对这些能力进行整合和无感提供。
要达成网络无所不达、算力无所不在、智能无所不及的愿景,实现算力网络下更广泛的接入、更丰富的场景、更低的价格成本、更容易的使用,算力网络应具备和打造以下核心能力:
算力基础设施已由云计算从中心向边缘和端侧演进,形成了更加泛在的算力体系。在算力节点泛在的基础上,需通过云边协同、云端协同构建面向行业园区、行业互联网等多种业务场景的算力体系架构,为各行业提供可定制化的服务质量保证,实现可靠网络连接、可靠算力设施向行业客户更近一步的延伸。
算力度量是对算力需求和算力资源进行统一的抽象描述,并结合网络性能指标形成算网能力模版,为算力路由、算力管理和算力计费等提供标准统一的度量规则。算力度量体系可包括对异构硬件芯片算力的度量、对算力节点能力的度量和算网业务需求的度量。
算力标识是全局统一、可验证的,用于标识算力资源、函数、功能和应用等不同维度的算力。用户通过算力标识指示所需服务,网络通过解析算力标识获取目标算力服务、算力需求等信息,为算力调度等提供基础。
算力解构是将多样化、大粒度的算力需求,根据业务逻辑、资源需求、性能需求、服务特殊性、业务流粘性、资源节点统一性等因素,分解成小粒度、简化的算力需求。使业务可以分布式地部署在云边端多级算力节点上,来克服单设备资源能力有限的瓶颈,实现业务的灵活部署,资源的高效利用。
算力调度综合考虑网络的实时状态、用户的移动位置、数据流程等要素,实现对算力资源的统一管理、跨层调度和应用的敏捷部署和动态调整,用户可在不关心算力形态和位置的情况下,实现对算力资源的即取即用。
通过自动监控和容量趋势预测算法,实现算力整合,使用算法将不同算力CPU/内存资源使用率波峰波谷叠加,实现了削峰填谷,生成自动迁移方案,完成算力在主机层面的整合错峰与超分技术结合,最大化削峰填谷。结合AI算法在系统迁移时,将虚拟机,物理机,集群等数据和组合关系进行智能关联,根据不同参数推荐给出最佳的迁移优化方案。根据资源池的空闲情况和使用趋势预测,采用智能上下电方法实现不同设备的实时上下电,最大化节省能耗。算力使用削峰填谷,算力资源利用效率最大化,降低全社会算力使用成本。
SRv6是实现算网融合的关键技术,能够为算力资源提供覆盖省网、骨干和数据中心的端到端按需调度能力,可通过灵活的业务链创造更加丰富的增值业务,结合资源预留、流量整改、网络切片、路径规划等先进技术,实现可预估、可规划的流量调度,将时延、抖动和丢包率控制在确定的范围内,满足各行各业高带宽、低时延、高可靠等的业务需求。
以算为中心、网为根基、多要素融合的算力网络,基于算力(包括CPU、GPU、NPU、存储等多样化异构算力)、网络(包括物联网、5G、专线、宽带等网络)和能力(包括视频、大数据、AI和安全等能力)的有机融合和封装开放,允许客户根据任务需求进行灵活组合订购,支持按照性能最优、成本最低或综合平衡等多种策略进行云、边、端资源调度和自动开通,支持API云服务方式开放和共享视频以及AI能力实现云应用定制开发,支持根据用户性能需求进行潮汐调度、自动弹性伸缩和按用时用量计费,从而创新智慧行业应用场景、创新算网资源生产模式和创新生态合作模式。
总的来看,有以下创新场景和应用可探究和实践:
应用场景创新:基于传感器、物联网、AI视频学习、事件驱动,助力后疫情时代智能防控和风险识别
基于通用硬件,支持多种标准协议,实现多厂商设备的快速接入。基于AI赋能,提供图像识别技术,适配各类智能分析场景,支持人脸识别、人群识别等智能识别场景。基于事件驱动算力,动态调度AI能力,提供精准的场景系统联动能力,实现无接触人员动态识别,通过人脸识别出基础信息,自动调用电子健康平台数据,分析人员健康数据,包括健康码、行程数据,实现对于异常人员自动报警。
项目交付创新:基于5G+算力(边缘算力)+AI,在线订购一键交付,低成本快速实现老旧改造
传统的项目模式交付的行业DICT类项目,除了5G可以实现一键订购和在线交付外,算力(私有云)和能力(AI)严重依赖传统设备商,交付周期长,交付进度不可控。通过连接(5G)、算力(边缘算力、中心算力)、能力(AI能力、应用能力)等的基础能力统一接入纳管、融合打包,面向场景的融合封装等实现算力+连接+能力的在线订购、一键交付,大幅降低成本,助力社会老旧园区低成本快速实现数字化、智能化改造。
运营模式创新:按需使用,算力资源、AI能力和网络连接都支持动态调整,用量用时固定租用等多种计价模式
改变原有项目模式按照需求预估资源、一次性算力的运营模式,对于算力资源、AI等能力资源,按照实际需求进行初步分配,后续根据需求进行动态实时调整,既避免了初期的大量资源闲置,又防止后续的资源出现瓶颈时无法快速扩容的困境,可制定按照用量、按照时间(天、周、月)、按次、固定租赁等多种计价模式,支持场景按需灵活的算费。
生态合作创新:AI等智慧能力与算力、连接能力快速集成、适配,提供更全面、多样化的生态交易模式解决方案
通过AI能力管理模块实现对自有AI能力与第三方AI能力的统一管理、部署与调用,拉通合作生态的各方,实现面向多种场景的灵活的能力组合,借助算力交易体系,实现第三方算力和能力的交易支撑。客户在提交任务式AI服务订购请求后,经过算网需求解构、智能调度、智能选路开通算网基础能力后,由AI能力管理模块将所需AI能力镜像进行远程部署并拉起应用,通过接入网关为客户提供AI服务。
算力网络的发展是个长远的过程,在这个愿景里需要国家、社会、运营商等多方共同努力。
从服务用户角度看,只有满足更广泛的接入、更丰富的场景、更低的成本、更容易的使用,才能带来更高效率的算力资源使用,才有可能提升企业收益和赋能社会各行各业,让算力变成水电一样的基础设施,为行业创新场景应用,为社会创造更好的效益。
从架构分层和能力提供看,算网基础设施底座提供丰富的能力供给,算网编排调度层(算网大脑)负责调度资源完成算力灵活调度任务。
作为运营商的长期合作伙伴,浩鲸科技针对算力网络提出完善的整体解决方案,作为编排管理层的核心智能调度系统,浩鲸科技“鲸睿大脑”已打造统一编排左脑、算网自智右脑及算网孪生底座等核心能力,为新业态下算网业务的智能化编排开通提供可落地解决方案,同时结合AI、大数据等多要素能力开展生态合作创新试验,探索算力网络的创新应用和模式。下期将介绍浩鲸科技算网大脑的技术能力及其在东数西算战略中的落地应用。