5G时代来临,万物智联已经走入大众生活,对计算结构提出了全新要求。随着终端算力上移、云端算力下沉,在边缘形成算力融合,边缘计算逐渐深入多种应用场景,成为不可或缺的网络基础设施与支撑数字经济高质量发展的重要驱动力量。
在8月19日的2022中国数字服务大会【边缘服务专题论坛】上,阿里云边缘云团队博士后研究员兼技术专家付哲以《边缘云技术创新 让“云”无处不在》为主题,分享了阿里云在边缘计算与边缘云方面的技术演进路线、商业场景实践与学术研究探索上的工作。
随着通信技术的发展,通信的主体从以人为中心,逐渐向以物为中心迁移,信息流转也使得数据的生产消费方式发生巨变。数据的生产消费方式由集中生产、分散消费,转变为分散生产、泛在消费,这意味着技术上也需要进行应用的重构和产业的协同。
近年来,云计算和5G技术的结合,催生出一大批需要大量流量、超低时延、海量链接的新型应用与场景,例如4K/8K的超高清视频,工业控制与车联网,环境监测、智慧家庭等等。但是,传统的集中式的云的模式,已经逐渐难以满足这些应用对网络带宽流量、网络传输时延、以及连接规模等等方面的需求。
边缘计算发展趋势
在当前背景下,为了满足5G应用对增强移动宽带,海量终端互联以及高可靠低时延连接的需求,边缘计算和边缘云的价值日益凸显。有机构报告预测,5G时代,80%的数据和计算将发生在边缘。边缘云通过将流量在边缘进行收敛,可以实现对大流量的本地化处理和分发,避免海量流量对骨干网络的冲击,同时也有效降低流量的远程传输成本。同时,依托分布式架构,边缘云可以实现对海量终端高并发的分布式处理,有效提升计算效率。此外,边缘云通过就近部署,也能够满足海量终端低延时处理的场景化需求。
相较于中心云或者物联网,边缘云是一个新的概念。根据著名信息技术研究分析公司Gartner的解读,边缘计算是相对传统集中通用计算而言,将工作负载部署在边缘的一种计算方式,其采用分布式的计算架构,在尽可能靠近数据源或者用户的地方进行计算和存储,仅将必要的结果送到云中心。
边缘云与传统的云或者IoT是互补的定位,没有相互取代的关系,可以将边缘云看作是云的延伸,为客户提供低延迟、本地化、自治、安全隐私的服务能力。
从用户的终端到云端,Gartner将这中间的部分,分为了两类边缘:
Gartner:边缘分层结构
这两类边缘都可以包含于广义的边缘云的概念中。就近、分布式、场景化与差异化,是边缘云有别于中心云的关键字。
阿里云在云计算基础设施服务方面,基于统一的飞天底座,提供了一云多芯、一云多态的云计算架构,从中心向边缘辐射,让算力无处不在。
边缘云定义与形态[1]
边缘云是由大规模地域分散的边缘节点,相互协同组成的一朵可远程管控,安全可信,标准易用的分布式云。[1]
边缘云单节点规模较小,在百这一数量级,节点广泛覆盖离用户更近的热点区域,支持边缘设备管理、智能终端上云、视图流化、渲染、CDN、以及5G + 边缘云网融合等等边缘场景,为用户提供更近、更低时延,且与中心体验一致的云服务。
阿里云边缘云团队作为国内最早定义和研发边缘云的团队之一,早在2018年联合中国电子标准化研究院发表了业内首份《边缘云计算技术及标准化白皮书》[1],对边缘云的概念、架构和应用场景作了明确定义。
边缘云典型应用坐标图
时延和带宽作为边缘云最能带来价值的两个优势点,为各行各业的创新应用场景提供了基础。
根据对时延和带宽的需求,将边缘云的典型应用列在如上的坐标图中。初期,边缘云上已经跑着诸如视频监控、智慧工厂、VR、云游戏等应用。随着边缘云技术和应用本身的发展,中长期边缘云还将支持智慧交通、自动驾驶、远程医疗等等创新应用。
边缘节点服务ENS是基于运营商边缘节点和网络构建的IaaS层服务, 提供“融合、开放、联动、弹性”的分布式算力资源,包括虚拟机、裸金属、容器等多种形态,能够有效帮助用户业务下沉至运营商侧边缘,降低计算时延和成本。
ENS基础设施布局
目前,ENS在国内拥有2800+节点,实现中国大陆31个省份三大运营商全部覆盖,偏远地区也能就近接入。
同时,ENS提供全国分布式资源的分钟级交付,用户能够按量付费,弹性扩缩容。依托边缘云的优势,ENS还提供了优质的边缘网络,并且能够支持边边加速、云边加速。此外,ENS还提供了多种业务场景方案的整体交付能力,例如提供成熟的内容分发、视频上云等解决方案,有助于客户业务转型升级
依托于边缘云底座,阿里云边缘云提供了视图计算服务。视图计算是面向视图设备,例如摄像头、车载终端、消费电子等等,为这些设备的上云场景提供连接、AI计算、云存储的PaaS服务,能够大大降低网络延时,提升视图类数据处理效率。
基于边缘云构建VEC系统架构
基于视图计算服务和阿里云自研的接入协议,客户的视图设备能够一键上云,并且就近接入到边缘节点,实现直播、录制、截图、转码等基础视频处理能力。同时,阿里云边缘云也集成了阿里达摩院的170多项丰富的视觉AI算子能力,包括交通拥堵、安全帽监测等等,支持高速上云、智慧工地等场景。
视图计算服务基于边缘云能够实现视频流的边缘就近处理与存储,能够为客户优化流量与存储成本。此外,平台还提供可视化的流程编排能力,给用户提供易用的体验。
针对边缘大容量存储场景,阿里云边缘云推出了独立的服务——边缘协同存储。
正如前文所述,终端上云场景往往具有位置分散、数据规模大、价值密度低的特点,同时还有一点就是带宽反转,上行带宽远大于下行。长期的数据回云会造成较大的带宽压力以及存储成本,同时最重要的一点,无法保证就近、低延迟。
边缘协同存储,是将边缘云多个分布式节点的对象存储资源进行统一管理和调度,提供位置无感、体验一致、大容量、高性价比的对象存储能力。
基于边缘云构建EOS系统架构
为了实现这些优势,在架构设计上,边缘协同存储采用了典型的云边协同管控方案,中心的元数据逻辑Bucket与边缘的物理Bucket动态映射,保证数据的一致性。同时采用优化过的读写调度策略及算法,在保障性能及稳定性前提下的实现资源最优使用。另外,边缘节点实现了一部分的自治管控,可以进一步降低访问延时,同时提升服务的稳定性。
第三个典型应用是基于中心云和边缘云节点,构建的一张超低时延、全分布式下沉的通信级流媒体传输网络GRTN。
传统的流媒体传输,依赖的是基于CDN构建的树状网络。从一个摄像头采集到的画面,到用户通过手机观看,需要经过L1、L2、直播中心、L2、L1等多级节点,链路相对比较固定,延时、成本、扩展性都有很大的优化的空间。
GRTN设计概览[2]
GRTN采用了一种树状和对等网结合的动态网络,GRTN的各节点之间不再有层级关系,而是相互对等,最终形成的就是一个网状结构的系统。此外,流媒体大脑作为GRTN的核心组件,负责路径探测、路径计算、流媒体编排等。选路中心会周期性收集内部链路探测的结果,并利用KSP算法来进行拓扑计算。
另一方面,节点之间的链路探测数据,并不能完全决定实际的最优路径,例如在多人视频会议的场景,加入的参会人员的数量、分布甚至先后,都会影响最终的路径决策。因此流媒体大脑还需要对流媒体的具体信息进行感知,同时还需要结合各节点的容量规划、成本、质量等等因素,共同编排出最优的传输路径。
GRTN优化结果展示[2]
通过基于实际线上业务进行了测试,相比传统的CDN树状结构,GRTN的传输时延由400ms左右提升至180ms左右,时延减半。此外,在用户体验上,98%的播放不会出现停滞的现象,95%的播放可以在1s内开始。该工作的相关成果已被sigcomm 2022接收,感兴趣的读者可以进一步查阅论文。[2]
利用边缘节点广分布且靠近数据源产生地的特点,能够进行特定的数据处理和识别优化,提供低延时、省带宽、低功耗、安全的AI服务。
基于边缘云构建边缘AI系统架构
整体架构采用了云-边-端三层协同的方案。
在终端侧,手机、iot等设备算力较弱,且功耗有限,因此很难运行比较复杂的AI模型,更适合做数据的采集、压缩、以及预过滤性质的工作。边缘云提供了GPU、FPGA等硬件加速的能力,但是相较于中心云,规模和算力还是比较有限的,因此不太适合在边缘云进行大规模的模型训练以及数据的持久化存储,更适合对时延要求较高的推理部分。而模型的训练、结果的持久化存储,可以放在中心云进行。因此,在云-边-端三者协同的边缘AI场景,通过将AI算子从终端设备上移到边缘云,将AI算力从中心下沉到边缘云,共同提供低时延、高效能的AI服务。
除此之外,为了方便算法科学家将算子模型部署到边缘云,阿里云边缘云同时开发了边缘算子托管平台,能够结合边缘云分布式的特点,一站式、自动化地完成 AI 服务在边缘节点的部署,将 AI 模型的推理过程转化为通用的 Restful API 接口形式,供终端用户调用。
阿里云边缘云团队在2020年发布于IEEE EDGE会议的一篇论文中的实验表明,边缘AI在部分场景可以大幅度提升推理性能,目标检测性能最多可以提升50倍。[3]
云渲染,或者云游戏,是最近非常火的一个方向。阿里云边缘云基于边缘云的全分布式异构计算资源和网络带宽资源,针对游戏、AR/VR等视频渲染场景,提供就近、低延时、位置无感的云上渲染服务。
基于边缘云的云游戏系统架构
以云游戏为例,用户的游戏终端仅仅包括显示部分和操作部分,用户将控制指令发送到边缘云节点,在边缘云节点渲染出实时游戏画面后,游戏的视频流和音频流回传到用户游戏终端。这样的话,用户不需要强大的游戏设备,仅仅通过手机、电视、甚至家中的智能音箱,就能畅玩目前最新、最火的游戏。
基于边缘云的云游戏服务优化结果展示[4]
云游戏中,时延是最能影响用户体验的因素。由于边缘云相比中心云能提供时延更低、质量更好、成本也更便宜的网络能力,因此,基于边缘云的云游戏服务的时延,要明显好于基于中心云的云游戏服务。阿里云边缘云团队在IMC 2021与几所高校合作发表的论文,测量了以云游戏为代表的边缘云典型应用的性能和优势,通过该论文了解研究的详细结果。[4]
资源调度,特别是云计算中的资源调度,已经是一个相对成熟、研究成果也较为丰富的领域了。但是,边缘云的诞生为这个成熟的场景带来了新的问题和新的机会。
边缘云中,协同是一个重要概念。以下将展开介绍与调度相关的三种协同:
第二个大的研究挑战来自于异构资源管理方面。
前文介绍的云渲染云游戏场景,目前部分业务是由新型异构硬件承载的,比如ARM服务器,或者手机ARM芯片组成的阵列服务器,等等。这些新型硬件对于云计算厂商来说,缺少一套标准化的纳管、测试、评价标准。阿里云期待跟各大高校、科研单位合作,共建一套边缘云异构硬件评价系统与标准。
此外,基于这些新型异构硬件,也需要进行虚拟化层面适配,例如,如何在手机ARM芯片阵列服务器上,构建出功能完整的容器平台,提供更灵活、扩展性更强的服务能力。
第三,部分异构硬件通常含有专用的硬件加速单元,这些硬件加速单元能否通过软硬件协同优化,更充分地被上层业务所使用,加速诸如编解码、AI等等场景,也是阿里云边缘云团队感兴趣的研究方向之一。
最后,在云游戏、VR/AR、元宇宙等近期比较热门的应用服务中,同样有大量研究机会点。
如针对云游戏或者VR相关场景的编解码、传输等方面,可以通过融合边缘云特性进行专门的优化。此外,目前大部分云游戏直接将游戏放在边缘运行,只做到了“游戏云端化”,虽然在短期内实现了丰富云游戏服务,但是并没有充分发挥云的优势。
未来阶段,是否能够诞生真正的原生就运行在云上的游戏,这些游戏为云而生,弹性自如,能够充分利用云的优势,给用户带来更极致的云游戏体验,也是阿里云边缘云期待和大家一起探讨和解答的问题。
参考文献
[1]《边缘云计算技术及标准化白皮书》2018, 阿里云计算有限公司,中国电子标准化研究院
[2] Li, J, et al. "LiveNet: A Low-Latency Video Transport Network for Large-Scale Live Streaming." ACM SIGCOMM (2022).
[3] Fu, Zhe, et al. "Astraea: Deploy AI Services at the Edge in Elegant Ways." 2020 IEEE International Conference on Edge Computing (EDGE). IEEE, 2020.
[4] Xu M, Fu Z, Ma X, et al. From cloud to edge: a first look at public edge platforms[C]//Proceedings of the 21st ACM Internet Measurement Conference. 2021: 37-53.
原文链接
本文为阿里云原创内容,未经允许不得转载。