如今,快速发展的数字经济与数字产业正在成为经济增长的新动能。根据第三方研究报告:2021年中国数字经济规模已经达到45.5万亿元人民币,占中国国内生产总值的39.8%。而以人工智能、大数据、边缘计算、并行计算、元宇宙为代表的新兴信息技术,正在成为加速数字产业增长以及实体经济动力切换的推动力。这些新兴技术产业化落地的背后,都离不开算力的支撑。
12月22日,戴尔科技集团、中国信通院和英伟达共同举办了“数字经济时代的算力基石”主题网络研讨会,多位AI、HPC领域技术专家共同探讨了数字时代的算力推进方式。
走进戴尔科技集团AI&HPC创新实验室
首先,来自戴尔科技集团数据中心业务部的企业技术架构师吴跃向大家介绍了戴尔科技集团AI&HPC创新实验室的情况。
戴尔科技集团数据中心业务部企业技术架构师 吴跃
戴尔科技集团AI&HPC创新实验室汇集了全球各地的AI&HPC领域技术精英,他们的工作聚焦于AI计算、并行计算的前沿技术研究、效能基准测试、戴尔科技就绪解决方案、技术白皮书,以及通过实验室的CPU&GPU计算资源,帮助用户针对自身的算法和应用软件进行个性化测试与优化。同时,AI&HPC创新实验室的专家团队也在与NVIDIA、Intel、AMD、Vmware、Ansys、Altair等全球战略合作伙伴进行深入的技术研究与解决方案合作,将最新的硬件和软件技术融入到戴尔科技AI与HPC解决方案中。
Ratter是戴尔AI&HPC创新实验室打造的GPU超算集群,目前已有超过300张NVIDIA高端GPU加速卡的计算集群规模。在2021年全球HPC Top500排名中,Ratter GPU集群位列第233位。戴尔很多AI以及使用GPU加速的HPC解决方案(如CAE、分子动力学、生命科学等)都是在Ratter集群上首先进行测试和优化的。
戴尔科技AI就绪解决方案是基于Dell基础设施产品与解决方案,与AI软件及应用特点相结合,为用户提供预验证、一体化的就绪解决方案。在该解决方案的基础上,通过戴尔科技中国AI战略合作伙伴生态,以及精选的AI软件平台与行业应用合作伙伴,戴尔科技集团可以为国内用户构建AI平台,以及制造、零售、教育等行业AI场景提供更全面、本土化的工程化落地方案。
在HPC领域,AI&HPC创新实验室持续跟进HPC在数值计算、网络通信、数据存储的最新技术,为用户提供HPC ready solution就绪的解决方案。在行业及技术应用方向上,Dell HPC团队重点关注制造业、生命科学、科学研究、人工智能与HPC的结合。同时,AI&HPC创新实验室还推出了面向EDA的Dell HPC就绪解决方案,面向数字设计与仿真验证的HPC就绪解决方案等。
吴跃表示,一直秉承着开放性理念的AI&HPC创新实验室还建立了Dell AI&HPC技术论坛、Dell HPC社区;戴尔科技会在其中分享最新研究成果、技术白皮书、解决方案以及技术博客,对这些内容感兴趣的朋友们都可以加入其中,下载资料,与大家进行技术沟通。
AI、HPC与元宇宙的算力基石
在圆桌论坛环节,在戴尔科技集团大中华区企业技术架构总监许良谋的主持下,中国信通院技术与标准研究所互联网中心副主任、算网融合产业及标准推进委员会秘书长穆琙博,戴尔科技集团中国研究院高级主管科学家李三平,以及英伟达解决方案架构师黄煜,围绕 “AI、HPC与元宇宙的算力基石”话题展开了分享和讨论。
戴尔科技集团大中华区企业技术架构总监许良谋
信息技术应用普及加速算力升级
穆琙博指出,当前5G、云计算、大数据等新一代信息通信技术加速创新,行业应用场景日益丰富,海量数据与复杂应用处理需求进一步驱动算力规模不断扩大,加速了算力技术创新升级。从算力设备、算力园区到端到端的算力服务,算力已经成为数字经济时代新的生产力,对于推动科技进步、行业数字化升级,以及经济社会发展具有非常重要的作用。根据中国信通院发布的《中国算力发展指数白皮书》预测,在算力方面每投入1元,将带动3-4元的经济产出。
中国信通院技术与标准研究所互联网中心副主任
算网融合产业及标准推进委员会秘书长穆琙博
谈到AI时,李三平介绍,在世界杯比赛中使用的半自动化越位技术(SAOT),就是AI在体育行业中的典型应用。近几年戴尔科技集团也在与国家赛艇协会、皮划艇协会、国家队的人体运动表现和健康发展中心合作,把AI、大数据、边缘计算、流式数据处理技术应用在运动场景中。如在赛艇队的日常训练中,会用摄像头去捕捉运动员的姿态,在边缘端进行实时的数据分析,并应用AI、智能视频分析技术结合生物力学知识,对运动训练动作的力度、角度和稳定性偏差进行实时分析与评判,将分析结果实时反馈给教练员和运动员,从而起到辅助训练的作用。整个业务场景会对边缘端和数据中心端提出很多技术挑战,必然会用到AI、高性能计算的算力,也有使用到戴尔AI、边缘计算、流式数据计算、服务器、存储相关产品与解决方案。
戴尔科技集团中国研究院高级主管科学家李三平
黄煜表示,除了体育行业,AI也正越来越多应用在零售行业中,如顾客可以通过AI进行人脸识别,以无接触式的支付方式购买商品;商家则可以通过店内摄像头产生的大量视频数据来分析商品摆放位置和人流动线情况,从而优化店内设置,进而提升销量。近年来热门的自动驾驶则是通过自带的摄像头或激光雷达等传感器来感知车辆外的世界,背后也有很多AI算法帮助车辆去判断路况,并做出相应的决策,也离不开边缘计算的算力。还有车路协同,把传感器、算力布置在路口或路况复杂的地方,可以为车辆提供场景补盲,让AI帮助优化交通效率,提升安全性。
英伟达解决方案架构师黄煜
元宇宙也是近两年爆火的技术话题。李三平指出,实时的三维重建技术才能营造出元宇宙场景,戴尔中国研究院在这个领域也投入了大量的研发工作,因为在人体重建的过程中,无论是传统的图像渲染技术,还是神经渲染技术,都需要大量复杂的计算,需要AI、高性能计算的算力强有力的支撑。
AI GPU分布式训练有章可循
随着AI与HPC结合越来越紧密,AI大模型结构更加复杂,参数规模也更加庞大。所以很多AI大模型在训练中会用到AI集群式计算,目前主要实现方式是GPU分布式训练。
众所周知,当前AI领域的“网红”ChatGPT就是从AI大模型一步步发展而来的,从第一代参数量只有1亿,到第三代GPT-3参数量达到1750亿 ,再到现在的3.5代,其效果已经超出了所有人的想象。据第三方研究,在GPT-3训练过程中共使用了28.5万个CPU、1万个GPU的算力,训练费用高达1200万美元。
训练这样大型的模型,必须要大规模的AI计算集群进行集群化的分布式训练,才有可能在比较短的时间内实现训练模型的收敛。为了解决各个行业更加复杂的问题,以Transformer为代表的AI大规模预训练模型,已经成为AI领域的一个趋势。而这样的AI大模型的训练与推理部署,是无法通过单张GPU来计算的,因为单张GPU的显存空间与计算能力是有限的。因而,模型拆分、GPU分布式训练,是训练AI大模型必不可少的技术。
为了帮助国内用户实现AI分布式训练技术的工程化落地,戴尔科技集团今年在国内发布的《戴尔科技AI GPU分布式训练白皮书》, 将戴尔科技在构建AI GPU计算集群与分布式训练的优化经验分享给更多的国内用户。
而围绕着AI GPU分布式训练,黄煜分享了NVIDIA针对AI大模型计算,在计算、通信、存储的硬件优化;以及在训练框架层面,针对大模型拆分、通信优化、自动化微调、大模型推理部署上的软件优化。
软硬协同为应用提供算力基石
随着计算越来越走向并行化、网络化,越来越多的计算任务需要被拆分做并行计算,计算过程以及结果的同步需要通过网络来通信。
对此,穆琙博指出,深度融合计算与网络的算网融合是未来ICT技术发展的目标,计算网络化就是为实现这一目标而发展和演进的路径之一。其本质是从IT视角出发,将各类算力设备和多元算力中心,通过高速互联网打通,为行业用户提供一体化的算力服务平台。近期中国信通院正在依托中国算网融合产业及标准推进委员会(TC621),联合包括戴尔科技集团在内的19家合作伙伴,共同起草了计算网络化研究报告的编写工作。
计算网络化具有算力异构多元、网络广域互联、资源按需供给、一体化算力服务、应用规模部署五大特征。其典型应用实践有边缘计算、分布式云、高性能计算云、一体化智算等等。
其中边缘计算的发展已经获得全球各国的高度重视,我国也积极推动边缘计算在工业互联网等多个领域的发展。按照技术实现方式,边缘计算可分为运营商边缘、云边缘和行业边缘三类;同类型的边缘计算部署方式、应用场景均存在差异。为了应对边缘计算选型难的问题,中国信通院算网融合研究团队从边缘计算的基准能力入手,打造的“EC Ready”技术体系,推动计算方案和服务的基准能力标准化工作,开展行业第三方技术评测,推动边缘计算产业应用落地。
李三平则从实践角度分享了边缘计算的选型经验。李三平指出,在运动这个典型的边缘应用场景中,实时性是最大的需求和挑战,如果解决方案不能做到实时性,就不能快速反馈分析结果,也就不能及时有效的帮到运动员,所以是否存在延迟是戴尔在技术方案调试过程中关注的重点。戴尔依托自身性能强大的边缘服务器和数据中心端的GPU服务器,通过这些高算力平台的支撑,和国家队一起成功打磨出了边缘智能解决方案。而对于边缘端产生的视频数据,戴尔结合视频理解技术,在分析数据之前,就判断出视频画面是否需要存储,从而更快速的存储和分析有效数据。
当然,一个灵活好用的算力平台不能仅靠硬件,还需要好用的软件,软硬协同才能更好地为应用提供算力基石。据黄煜介绍,戴尔与NVIDIA为此合作推出了端到端的企业级AI平台解决方案NVAIE(NVIDIA AI Enterprise),NVAIE在由戴尔科技提供并通过NVIDIA官方认证的GPU基础设施硬件平台之上,可以在虚拟化和云原生平台上更快速地部署由NVIDIA提供的AI和数据分析软件套件包,进行资源调配,目前已经在国内很多行业中实现商用。
黄煜表示,NVAIE的目标是利用NVIDIA积累的大量针对不同场景、不同行业的经验,提供一套软件来帮助各类企业满足其AI工作负载的需求。它能够帮助运行传统企业应用的IT人士,轻松、经济、高效地运行支持GPU加速的AI工作负载,同时使用原有的工具来管理大型数据中心或混合云等等,目前也有很多客户使用NVAIE来部署和扩展数据科学、对话式AI、计算机视觉等各种应用。
新技术、新方向,未来可期
在圆桌论坛的最后,各位嘉宾谈到了对边缘计算、AI、元宇宙技术的展望。
穆琙博表示,技术融合将成为边缘计算落地的主要助推器。基于此,中国信通院联合边缘计算产业各方共同提出了“边缘计算+”的概念,即要用各类技术通过边缘计算化,赋能产业数字化,实现网络化和智能化的升级。一体化、智能化将成为边缘计算+的重要研究方向,云原生将成为边缘计算+技术演进的加速器。
李三平表示,十年前我们很难预测到AI能够取得如此丰富多样的进展,如果未来我们能够模拟大脑的意识过程,给深度学习模型赋予自学习的能力,让它实现自我进化,那么机器学习模型就可能发展出自己的抽象能力,给机器智能找到一个可发展的新路径。
黄煜指出,现实世界中的东西都可以在元宇宙的虚拟空间中得到映射,甚至延伸。我们可以产生很多数字孪生类的应用,如在虚拟空间中训练自动驾驶算法,当达到一定的精度和可靠性之后再到车上去部署和验证,甚至进行整个城市级别的交通管理、动线优化。元宇宙会给我们提供非常大的想象空间,同时也会给我们的场景和应用带来更多的价值。