4月21日,“2022英伟达数字孪生技术应用论坛”上,阿里云弹性计算产品专家张新涛为大家带来了题为《阿里云弹性计算在XR业务上的应用实践》的主题分享。
以下内容根据他的演讲整理而成。
2019年阿里云北京峰会上,阿里云与我们一个重要合作伙伴一同发布了一款新的图形GPU计算实例vGN6i,演示的场景是模拟一位购车用户通过支付宝小程序接入到一个逼真的汽车试驾3D空间,这个3D汽车和驾驶空间位于云上,购车用户在平板电脑上完成了这次试驾体验。这也是阿里云弹性计算业务最早接触数字孪生客户场景。合作过程中我们也逐步意识到数字孪生是提升全社会创造力和生产力的关键技术,之后我们便非常明确地加大了针对图像和流媒体相关产品与技术的投入和积累。于是,时间到了2021年,此时“VR/AR/MR”这些概念再次流行起来,甚至变得炙手可热,业界已经创造出了各类“Verse”来描述概念,但是在我们看来目前依然处在XR的视觉计算阶段。
说明:VR/AR/MR在实现的人机接口上有较大不同,但是应用场景重叠度较高,业界统称XR。
作为阿里云最早触碰“XR”和"数字孪生"的产品团队之一,我们也在内部开始与各个团队分享针对XR产业新浪潮上的见解,上图是2021年8月,“AR/VR/MR”以及各Verse正当火热,我们为内部团队解读XR产业时的其中一页,那时候我们的认知角度主要站在新产业热点对全行业影响的认知上。XR作为新的信息交互方式大家都满怀期待,但是如何通过云计算赋能到各个行业呢?产业的配合关系是怎样的?产业体系中,对每个参与者的需求是怎么样的?云计算在其中要贡献什么样的价值呢?我们不知道,但是我们更加积极的在业务实践中去思考和摸索。我们当时提了一个概念:视觉计算计划,8个月后的今天,我们又有了新的视角。
我们借助网上非常流行的“‘Metaverse’产业七层体系图”说明产业体系,顺便也看云计算要在其中承载的社会价值。可以看到图中是从最接近C端用户的体验场景需求,一直延伸到产业的最顶端尖端基础设施技术的需求,相比于过去每一次信息产业的变革,这次尤为复杂。从图中我们也能体会到,XR及各类Verse是利用人类已有和将有的技术加之商业手段实现对人类感官体验进行全方位升级,并且通过这次的升级浪潮实现全行业创造力和生产力的一次重大飞跃。
当我们把左图中的产业需求映射到右侧云计算专注提升并可以贡献价值的领域时,我们发现这5个领域是云计算必须突破和面临挑战的领域,这次是产业需求对云计算的全方位挑战。
这5个方向的挑战其实也是互相影响的,牵引方来自于应用交互体验升级需求,在交互体验实现飞跃的需求下,应用会使用到更多的人机接口方式,这直接导致计算、通信的复杂度剧增,并且还要兼容如此多的交互方式,而这些还都是技术面的挑战。更大挑战来自于产业生态,我们如果期待这个新交互体验的升级发生,则需要一套与之匹配的经济生态来驱动,这与以往的每一次IT技术革新带来的商业生态变革一样。
我们重点来说下牵引方:应用。早期的人机界面是纸带和打孔机,如今我们最常用的智能手机已经可以通过2D图像、声音、指纹、手势、红外、摄像、触屏、声音、震动、随身传感器等与我们进行交互了,而更加先进的手势识别,触感手套也开始小规模商用了。而如今应用程序的开发,相比纸带时期复杂了数万倍,应用覆盖领域扩展了数万倍,对计算和通信需求提升了数万倍,背后支持的经济规模也扩大了数万倍,开发者数量更是大幅扩增,其实后面所驱动的是一个巨大的产业生态。
因此,这次我们遇到的XR及各类Verse依然如此,这不是一次简单使用XR设备替代其他终端的变化,这是一次产业革命。
为什么说是产业革命,因为当前的技术能力和商业模式还无法支持实现我们理想的那个数字虚拟世界。举个例子,我们现在业界还无法使用AI CG+AI驱动+物理引擎的方式实现一个完全意义的虚拟人,其中很大限制来自于计算能力不足,带宽和延时的挑战依然存在,以及如何组织一个集人类信息技术大成的开发团队来完成。
那么定义到问题层面,我们在计算性能和规模,通信带宽和延时,生态效率与开放程度上都有一个飞跃。
计算上,需要相比当前10倍以上的计算性能和计算规模来解决产业的几个关键的计算问题,例如:更高性能的AI训练和推理,更高性能的实时光线追踪,更高性能的编码。
通信上,同时需要十倍以上的通信性能来解决通信带宽与通信延时的问题,以便辅助高性能的异构加速计算,实现云与端的无缝协同。
生态上,更需要一套建设一套开发者协作体系和商业生态来创造可以影响到千行百业的开发者生态系统。我们在前面很多年都在解决前两个问题,而目前正在解决第三个问题。
在过去的几年时间里,阿里云通过神龙架构、GPU实例迭代,创新GPU超算集群等计算和产品手段来解决计算和通信性能挑战的问题,通过大规模GPU产品商业化运营来解决GPU算力规模的问题。
在2021年云栖大会发布的第四代神龙架构在IO上也继续实现了功能和性能上的巨大飞跃,实现了eRDMA大规模组网,并且把时延降低到最低5us,并且网络IO使用硬件加速实现;VPC网络可以实现5000万PPS的吞吐和16us低延时通信。这意味着此后实现的虚拟人可以识别人类的更加细微的表情并且可以实现虚拟人的细微表情展现。
2021年我们还发布了第七代GPU实例,无论是XR及各类Verse用到的大规模多模态模型训练和推理,还是实时3D渲染,实时光线追踪,性能均实现大幅增长。
在计算规模层面,截止到去年5月,云上的GPU总算力已经超过1000PFLOPS,并且依然在高速增长,这也将成为我们未来创建数字虚拟世界基础算力池的一部分。
虽然计算性能,通信性能,计算规模都实现了大幅度增长,但是生产关系与生产力的问题依然存在,我们需要建立一个相适应的协作生态体系。
兴旺一个行业,就要创新生产力和生产关系。我们希望借助云上的技术、产品和商业生态来实现,阿里云的基础设施多年来在逐步完善,不断为全社会提供更多优秀的IaaS产品,但在异构计算层面,还需要做更多。
异构加速计算通常难以使用的,这个相信每一个使用GPU或者FPGA做开发的开发者都有同感,我们在过去服务客户的实践中,通过创新的软件和云服务来逐步解决这些问题。
例如:我们为提升用户GPU计算中GPU的使用效率推出了AIACC来帮助用户加速,在诸多大规模的AI训练和推理场景中,通常会有50%到数倍的加速效果,帮助用户降低TCO。我们还通过Windows 渲染容器的方式来解决实时渲染场景下的GPU计算弹性共享的问题等等。
用户的共性问题我们通过代码来解决,且逐渐沉淀为解决全行业问题的平台工具和软件。当前借助各领域合作伙伴的能力,在阿里云的软硬件产品之上共建了解决全行业问题的生态产品,这是我们正在做的。依据长达一年的全行业沟通,我们把全行业的需求分为三层:通用层、行业层、生态层。
◾ 通用层:通用层是提供更加原子化的能力来帮助全行业在云上构建业务,比如:云XR平台和云3D编辑器就是这一层面的关键产品。
◾ 行业层:关于行业层,我们的目标想法是为各行各业提供可以提升全行业生产效率的编辑器工具,通过编辑器工具,各行各业更加简单、高效地创作出适合本行业的XR及数字孪生应用,通过这种方式来赋能全行业。我们也向全行业发出邀请,希望致力于解决某个行业潜在问题的伙伴能够与我们展开合作,目前我们在这里积累了非常多的伙伴,他们拥有一流的产品,正在帮助很多行业创建本行业的XR及数字孪生应用。
◾ 生态层:生态层尤为重要,如果将行业层比作火箭的话,那生态层就是火箭的燃料,各行业在建设本行业XR及数字孪生应用时,需要大量的素材与数据资产,如何高效创造和使用这些数字资产显得尤为重要,也是繁荣开发者社区的关键一环。
在构建这些能力的同时,我们依然会巩固我们的IaaS产品,并且将其做得更好,我们会在基础产品服务上一如既往地给我们的客户提供持续的优质产品和服务。
我们再聚焦到产业看需求。上图中有一个常见的应用场景,在媒体上这个经常与我们理解的XR及各类Verse概念是绑在一起的,而对以上场景目前的认知也还在视觉计算的范畴,这些场景来自于不同行业,帮助行业创造新的业务需求或者做生产力优化。虽然这些场景目前看上去极为复杂,但是当我们站在视觉计算的角度对以上场景做归一化时,最终仍然会落到我们已经定义好的产品能力板块上了。
上图是我要重点介绍的关键产品部分之一:云XR平台。
云XR平台是当前最为直接将云、XR及数字孪生应用和XR终端链接起来的平台服务,云XR平台可以通过云与应用,云与端的标准接口实现事实上的产业标准统一,这一点对于产业发展有非常大的意义,对于供给侧,大家在约定好的接口上开发产品,实现互操作,效率更高,而在应用侧,用户也不会担心供应侧的任何变动和升级会导致之前的投入不可用。
我们已经在这个平台上为国内某高校客户实现了云上的热工仿真实验室,学生可以在PC端或者平板上实现对发电厂各类能量转换装置进行仿真实验,比如:操作汽轮机做实验,操作变电站做实验等等;我们也与创新的虚拟人客户实现了云上数百人参加的虚拟人演唱会等等。当前已经有越来越多的产业和行业开始尝试用云端XR方式做业务创新和产业升级,同时我们还在推动这个产品为更多行业赋能。
这里就引出了我们另一个基于生态伙伴的平台产品:云实时3D编辑器平台。
如大家所熟悉的,我们开发不同平台的软件,就需要不同平台的代码编辑器、代码编译器,开发XR平台上的应用软件,我们就需要实时3D的编辑器。但是,要使用这类软件并不容易,开发者需要购买昂贵的高性能GPU工作站硬件,还需要购买实时3D编辑器的昂贵授权,这对于开发者,都是一笔极大的开销。与此同时,这类的大型应用,通常需要一个团队来完成,就需要随时协同开发,并且开发过程中,诸多计算环节极其耗时,受限于GPU工作站的计算能力,开发者只能等待。
因此,我们与国际顶尖的实时3D编辑器软件供应商正在推出联合产品,以便将实时3D的开发环节也搬到云上,这样开发者就可以在无任何环境依赖的前提下,快速展开业务,实现跨地域协同,并且实现耗时计算的快速计算。