老王最近买了个 VR 头盔,他听说用这个高科技可以和小伙伴组队玩身临其境的游戏,可以与工作小伙伴们开面对面会议,甚至还可以体验宇航员的太空工作生活。可就是有一点,这玩意比较费机器,在自己公司里搭建的服务器跑不起来,说是需要将云计算、云渲染的理念及技术引入到 VR 业务应用中,借助高速稳定的网络,将云端的显示输出和声音输出等经过编码压缩后传输到用户的终端设备,实现内容和渲染上云。
为了把自己的 VR 头盔连接到这个云端服务,于是四处询问听谁能帮忙,终于打听到了有个叫“算网大脑”的家伙可以帮得上忙。
这个云端专属 VR 服务,其实是一种算力资源。各式各样的算力资源存在于现实网络中的不同节点位置,组成了我们所说的算力网络。这个算力网络的存在意义,就是为了给用户提供最适合的算力资源服务,这个最合适有着多层的意思,包括算力类型匹配、算力规模合适、网络连接能力、算力和网络连接整体性价比等。
算力网络前期经历了云网协同和云网融合两个阶段的发展。随着数字化不断深入,人工智能广泛落地,加剧了全社会对算力的需求;边缘计算的出现,云计算已经不能单独代表算力了,“云”逐渐变成了“算”。就这样,云网融合演变成为现在的算网一体,也就是算力网络。
算力网络的组成
算力网络虽然是算力和网络的组合,但老王这个忙找网管和云管,能帮得上吗?网管只有网络上的数据,它能想办法打通一条网络通道,但所通达的目标算力资源池是否合适则完全不知;云管只知道算力池里的算力类型和容量,它能告诉用户这个算力是否符合应用需求,但从用户端如何来到算力资源池就是个路盲。更要命的是网和算里面还存在多个独立的域,有各自不同域的网管和云管在管事,谁也不服谁。
算网大脑是一个左右逢源的大神,它虽然没有直接管理各个域的网和算,但它跟大家的关系都非常好。各个网络域和算力域,都会按约定把各自管理域的能力类型、可用容量、路径和使用状态都告诉算网大脑。最重要的是它们都非常听指挥,算网大脑让它们如何开通业务,全都按要求施工从不违抗指令。算网大脑在算力网络中掌握了完整了情报信息,又能指挥得动大家,那么帮老王的 VR 头盔找个合适的服务器资源池,可就是个再简单不过的事情了。
既然有如此能耐,老王就把这个任务交给了算网大脑。
算网大脑接到任务后,先把这个任务单的需求好好分析,包括头盔的接口参数和数量、VR 会议的种类、规模、计算需求(如 8K H.265 实时硬解码,2K H.264 实时硬编码,多路并行计算能力等)等,并把这些转换成了对 CPU、GPU、存储、内存等具体的算力需求清单,这个过程称之为算力解构。解构完成的算力位置,可能存在多点部署的情况,如中心云负责内容生成,边缘云负责视频解码和内容渲染等。
算网大脑会把自己手头上掌握的服务资源池信息翻了个遍,不论这个资源池是远在省外还是省内其它地市,或者是就在本地市的边缘站点机房。拿着这一摞的清单,先做一次入门资格筛选,CPU 必须是 Intel 十一代以后的 64 核、内存只要 DD5 的 256G、显卡必须是 NVIDIA Tesla GPU、存储必须是 SSD 2T 等等,此外为避免基础设施故障导致虚拟主机完全崩溃,资源池里的资源冗余度至少 100%以上吧。
接着算网大脑会仔细调查每个资源池的资源分配率(超售比)、资源使用率、资源故障率、PUE、资源池的运维成本,甚至资源池所使用的电力是否为绿色可再生能源。
对于某些需要独立部署的服务端应用,算网大脑还会检查这些应用的部署镜像文件是否在有预存在这些资源池中,后面它能调度云管在新申请的机器上把这些服务端应用都部署调测完成。
就这么样通盘考虑下来,算网大脑把手头上掌握的上百个资源池筛选出十几个待选目标,并按不同评判维度做了个排序。
待选目的地找到了,算网大脑接下来就考虑从哪里出发了。要想用上远端的 VR 算力服务,终端头盔得连接到网络上。通过场景分析可获取网络需求,如带宽 100Mbps,RTT 20ms,丢包率<0.1%。网络接入方式多种多样,既有移动接入也有固定有线接入,既有经济快捷型也有豪华可靠型,算网大脑会按 VR 头盔的连接能力特性、应用场景以及老王的经济承受能力,推荐一个合适的方案。
如果老王是个出差达人并且 VR 头盔支持无线接入,那么算网大脑就会为其找个 5G 专网接入的路径。首先确定用户的出差使用范围在哪些地市,然后评估这个 VR 游戏或会议应用会有多大的带宽要求和多低的时延要求,再从这些城市的 VR 专用切片中找一个带宽、时延和用户容量都满足的切片,最后把老王的用户号码信息给注册进去。如果碰到的是一个土豪型老王非常在意用户隐私,那么会先定位用户的使用专网的具体地理位置,从周边找出信号覆盖好、传输带宽充足、没有故障一直稳定正常工作的 5G 基站群,并让这些基站给老王预留充足的专用 PRB 无线接入资源,利用这些专用资源筹建一个尊享 5G 切片。
如果老王就在工作室一地固定使用 VR 头盔,那么算网大脑就会为其推荐个有线接入的方案。有线接入算力网络的时候,同样是先评估这个 VR 应用会有多大的带宽要求和多低的时延要求,然后从其工作室附近找一个最合适的传输接入站点。所谓合适,包括光路是否已预覆盖(可节省大量的光路建设时间让用户及早享受到 VR 算力服务)、传输接入设备是否有空闲且带宽和类型都匹配的端口、设备是否有告警或故障、传输设备是否已成环(环路上任何一个方向断网业务都不会中断)等。如果碰巧老王是个零故障高可靠要求的用户,算网大脑还会给找个双路由接入网络,双 CE 分别使用不同的光路接入到处于两个不同环路上是传输设备。不论用户的要求有多高,算网大脑总会想办法找出一个接入方案。
话说条条大路通罗马,更何况罗马也并非唯一的目标。从算网大脑角度来看,从用户端到目标算力资源池之间其实是跨越了多个网络域的。虽然选择很多,但对于掌握了各个域情报的算网大脑来说,这也算不上啥难事。
端到端的选算选网选路
算网大脑先是掌握了各个网络域之间的连接情报,哪两个域是可以直接互通的,哪些域可以直接进入到算力资源池,哪些域是近的、提供中间连接的。这些域不仅包括传输和数据这种不同专业的区隔,也有地理区域之间的区隔(比如不同地市城域网,以及省级骨干网)。算网大脑准确掌握着相邻两个域之间的具体连接点信息,比如云专网哪对云 PE 设备跟某资源池 DCGW 设备互联的链路有多少条,它们之间是否有规划承载不同的业务,或者是 TRUNCK 成一个逻辑连接。
算网大脑还会通过各个网络域的网管,套取各个网络域内的情报,包括两个点(接入点和跨域连接点)之间是否有可达通路、通路是否有不同路由的工作和保护隧道、隧道路由的工作带宽是否满足业务需求、路由上各网络节点设备是否存在故障或告警等。对于某些新建的网络域,网管会摇身一变成为网络控制器,这些控制器能向算网大脑提供一种仿真类计算的工具,能够在业务通道真正开通前,模拟出每条隧道路由在带宽、时延、抖动、丢包率估算值,提供更为准确的入算评估能力。
就这样,算网大脑凭借着域间选网和域内选路这两板斧,在一片网络域和算力域中,成功找出了从用户到多个目标算力资源池之间的可选通道。为避免选择困难症的纠结,算网大脑使用多目标算法,从可用性、均衡性、用户体验、成本等多个方面进行比对,很快给老王找出一个综合满足各项要求的解决方案。
老王拿着算网大脑给出的解决方案,用哪些算力资源池,用什么接入网络,中间如何跨越多个网络域,各项细节写到清清楚楚明明白白。老王非常满意,决定下单购买 VR 服务了。
算网大脑智能选路方案
算网大脑接到老王订单后,马上通知相关云管按方案要求,在中心云或边缘云上进行算力资源的申请和 VR 服务部署开通,通知相关网络域的业务编排器或网络控制器,进行网络通道的逐段开通。
指挥调度可不是件简单的事情,算网大脑得根据各域开通的参数传递依赖关系,自动做好开通顺序协同和参数传递,比如云内网络先开,再把 VPN 名称和 VLAN 编码值传递给云专线通道开通,再把网关 IP 传递给终端开通。如果碰到哪域的出了问题,还得指挥大家把已做的事情进行回退,消除脏数据问题。凭借着优秀的协同能力,算网大脑在几分钟的时间里把老王订单中所订购的服务,全都按要求完成了开通。
老王刚刚用 VR 眼镜与工作小伙伴们开面对面会议,整个过程畅快淋漓。可会议结束后听说隔壁公司的会议服务器被网络攻击了,这让他感到一丝的担心。
这时手机收到算网大脑发来一条信息“检测 VR 服务到最近 24 小时异常访问 184 次,如需安全加固请回复 1”。