演讲实录丨周斌:人工智能推动新基建和数据中心的技术革新

2020-09-09 21:54:49

7月25日-26日,在中国科学技术协会、中国科学院、中国工程院、浙江省人民政府、杭州市人民政府、浙江省人工智能发展专家委员会指导下,由中国人工智能学会、杭州市余杭区人民政府主办,浙江杭州未来科技城管理委员会承办的2020全球人工智能技术大会在“数字之都”——杭州,成功举办。在7月26日举办的CAAI人工智能大讲堂暨云课堂上华为昇腾计算业务CTO周斌为我们带来了题为“人工智能推动新基建和数据中心的技术革新”的精彩演讲。

演讲实录丨周斌:人工智能推动新基建和数据中心的技术革新_第1张图片

周斌 华为昇腾计算业务CTO

 

 

以下是周斌的演讲实录:

 

不管多么漂亮的算法、人工智能(AI)的应用,这些都有赖于底层核心计算技术上的突破,所有的这一切都依赖于最核心的根,也就是芯片。在这些根技术之上,AI 计算产业才能成长为繁盛的大树。今天给大家分享,如何通过最核心的华为的AI 数据中心侧的解决方案,把各种酷炫的算法和应用变为现实。内容分为几个方面,第一个是在当前形势下,我国一直在强调新基建,新基建AI 的数据中心,成为我们所有智能系统的载体。在这样的情况下,AI 的数据中心有怎样的趋势?面临什么样的技术挑战?还要给大家分享华为Atlas 数据中心的解决方案,如何用炫酷的根技术、硬核科技解决一些挑战,以及一些应用案例。

 

30 年的基础设施建设积累奠定了我国社会发展的基石,我们修路、架设电力系统、做连接,华为就是一家基于连接提供高速、高效率连接系统的公司之一。有了这些基础设施社会得以运行,才能够成为一个高速、高效发展的社会。随着AI技术的到来,每个人都在谈论AI,所有的事都围绕AI 开展,因为AI 是具有溢出和带动性战略的技术,会成为新基建的一个重要组成部分。

 

新一代信息技术已经演化成基础设施,现在的基础设施包括了通信的基础设施,比如5G、工业互联网、物联网,甚至是卫星互联网;还有一些新技术的基础设施,比如云计算、AI、区块链,以及一些算力基础设施,所有的数据在前端经过传感器采集后,通过高速的互联系统,一定要经过处理系统去解决,才能够真正变成有价值的应用。

 

演讲实录丨周斌:人工智能推动新基建和数据中心的技术革新_第2张图片

 

算力基础设施需要在数据中心、智能计算的数据中心开展。不仅通过基础设施的建设,传统的基础设施相对独立,但在不同体系里,基础设施有一定的融合关系,比如在智能能源、智能交通的体系里,它的数据采集的方式、数据传输的方式和要求,以及数据存储和处理的要求都不一样。所以我们期望在行业里形成融合的基础设施,为特定的行业转型升级提供坚强的技术支撑。

 

在关系到国计民生的基础设施上,要进行大量的科学研究、技术创新,具有公益属性的基础设施,比如重大科技的基础设施,解决探索物理和宇宙的一些问题,以及正在进行的科研教学、产业创新,这些都有赖于通过提供大规模的具有公益属性的基础设施才能够完成。所以在所有的这些基础设施的前提下,我们把AI 定位成具有溢出带动性的战略技术。

 

在各行各业的体系里,不管是基于图像、语音、机器人、自动驾驶,还是基于控制的体系里,AI 已具有非常强的基础能力,这些基础能力需要让AI 融合在基础设施里,成为新基建的一部分。新生产要素的革新是数字经济繁荣的前提和基础,已顺利成为新的先进生产力。在这一代AI 革命,不管是算法的提升,还是应用的变化,这一切都来源于计算能力的提升。我们也可以看到AI 在这个时刻发生了非常大的跃进,或者说在这一代AI上,可以感觉到它才是真正有一定智能的系统。这里的核心来源之一是计算能力。现在每一颗手机芯片里的计算能力都达到了几万亿计算能力的范畴,这些能力使得AI 运算成为可能。

 

现阶段的AI 模型、AI 算法和应用,极大地消耗着各种各样的计算资源,计算资源已和电力、公路交通、能源、通信一样,成为我们的基础生产力。为了支持自主创新、可持续发展和开放领先的一些设备,希望算力能够为大家提供最基本的支撑。基于目前面临着数据爆炸的前提,所以我们可以看到大量的传感器,每个人的手机摄像头都是超高清,每天所产生的视频影像资料指数级的爆炸增长。

 

这些数据不管是产生于各种传感器、采集系统或业务系统,都成为最为核心的生产资料。而有了算力作为基本的生产力,数据作为生产资料,我们希望能做到普惠的AI,也就是每个人在生活中都被AI 环绕着。每天清晨有AI 把你叫醒,帮忙准备早饭;AI 为你预告天气;AI 提醒你要做什么事并安排出行,汽车自动驾驶将你送到工作场所,相关工作由AI 来辅助。当然,前提是还要做很多创造性的工作,所以我们希望普惠AI 能实现社会的高质量发展。而这一切都依赖于一个非常高效率、稳定可靠、大带宽的互联网络。我们希望网络也随着计算的基础设施同步演进,提供超大带宽、超低延迟、海量连接的新AI 时代的基础互联结构。当前,我们已经迈向了AI 时代,现阶段真正处在了爆炸式创新的前夜, AI 时时刻刻给我们带来很多惊喜。

 

演讲实录丨周斌:人工智能推动新基建和数据中心的技术革新_第3张图片

 

 

AI 和5G 的结合,万物的互联,让数据无处不在,比如自动驾驶。我相信自动驾驶的各种运输器械、汽车、火车等一系列体系能够高效、安全地把大家运送到目的地。但是在自动驾驶里面,我期望有超低的时延,因为自动驾驶系统需要快速响应周边复杂环境和多变的异常情况。

 

比如工业自动化,我们希望在产线上机器人能够快速完成所有的生产;希望电网更智能,我们的基础设施能够及时发现电力系统的波动和突发的这样一些事件,并且及时隔离;我们玩游戏时希望VR、AR 系统能够流畅的体验,进入非常真实的游戏世界。这一切随着AI 在基础的计算赋能,也需要用5G 为大家进行跨越式的能力提升。所以5G 时代的到来,实际上能够开启非常美好的新AI 数据生活,高速无时延的传输使中心训练边缘推理成为可能,每平方公里可以连接百万终端,让万物互联我们大量的互联数据、互联的设备,通过5G 连成一个整体,通过AI 基础设施和算力进行高效处理。

 

智能时代计算无处不在,每个人的身边都有很多强大的计算设备。计算机曾经是大块头、铁疙瘩,但随着技术的进展,每个人、家庭、组织都有大量的计算设备,并且这些计算设备的能力涵盖很多范畴。比如,我们数据中心的计算能力已提升到亿级且计算设备已开始深入行业,在公共系统里、生产线上AI 正24 小时不停地制造产品,摄像设备也在时时刻刻保障安全。

 

智能汽车很快就会运送我们到目的地, AI 也会走入每个人的生活,手机、电器、智能设备无处不在,并且它的计算模式也处在一个异构计算的模式。我们说异构计算已经开始兴起,AI 算法开始不断突破,这也开启了无限可能。AI 已经在图像分类、语音识别、游戏决策和阅读理解里面,基本上接近或者超过人类的能力,我们说这些是感知的AI 范畴。对于认知的AI 化,相信在短期内不会超过我们,人类还是有掌控力的。我个人认为,在短期内真正的具有与人类通识能力的AI还无法快速实现。但AI 在特定任务和特定领域里,已能够非常好的替代我们去干一些繁重的、重复,对于智力要求不高的工作,可以把我们真正解放出来从事创造性强的工作。

 

演讲实录丨周斌:人工智能推动新基建和数据中心的技术革新_第4张图片

 

 

我们希望用AI 真正推动生产力进步。随着5G 时代和AI 时代的到来,我们处在了一个爆炸式创新的前夜,爆炸式增长的数据,以及连接数目爆炸式增长,带来数据指数级爆炸式的增长,预测到2050 年将会产生180 ZB 的数据。面对无处不在的计算,我们有大量的智能终端,边缘算力迅猛增长,在家庭中的算力甚至于超过之前的超算。同时超级计算机这样一些计算设备的出现,让我们有无所不及的智能,不仅是在数据中心,而且数据中心的AI 计算已经开始要占据主流数据中心,推动云边端协同,让整个智能互联智能数据的传输处理和最终的提升都融合成一个整体。

 

我们希望AI 作为一种新的通用目的技术,general purpose technology 嵌入到每一个家庭、组织、个人,我们深信AI 技术将深刻推动社会的发展进程。人工智能现在是炒得火热的一个话题,但人工智能与生产力的结合,这样的巨变才刚刚开始。每一个人工智能在生产技术层面和应用层面的落地,将会极大地改变我们整个社会的发展,促进整个社会生产力的提升,并且带来极大的市场价值。

 

未来5 年,我们认为行业的AI 应用会成为一个主要的需求。AI 具有行业的属性,能够和行业结合,快速的落地,推动行业的进步,真正让每个人都享受到AI 带来的便利与价值。行业呈现多样性,千行百业所带来的多样性计算需求急剧的增加,未来非结构化数据的处理需求将呈指数级增长。城市智能物联网自动驾驶和智能手机多元化的应用里,非结构化数据大量产生,并且需要实时处理。比如语音视频流、直播,我们显然不希望它们两天之后才到用户手上,希望有一个快速的响应和实施的处理模式。这就逼迫计算由传统的通用计算转向异构计算。CPU 的性能受限于摩尔定律,并且由于制成的提升,制成的物理限制已经开始逐渐走向失效的状态,也就意味着CPU 的性能提升,每年的提升倍数已经由原来的1.5 倍降到了1.1 倍。

 

长久以来,CPU 及它的提升效能已变得很平缓,异构这样一个架构。刚才各位专家提到我们说的DSL,best architecture 所带来的架构上的创新,将打破现有的通用计算的瓶颈,推动摩尔定律持续的演进。针对AI 的机构计算架构,现在开始成为AI 计算里核心的诉求。所以我们一看到NPU针对于神经网络的专用处理系统,它的算力增长继续沿袭着摩尔定律的比例高速增长,从而真正能够满足千行百业对于AI 计算需求的急剧增加。

 

AI 算力仍然是稀缺和昂贵的资源,且难以满足。如现阶段指数级训练需求的增长,最新的神经网络模型有1700 多亿的参数训练一次,所消耗超过千万美金量级。AI 算力的需求还在持续增长,推动着我们计算系统不停演进,但现阶段都能由AI 协同完成。我们希望一个开放的架构,希望它简单应用,同时也希望AI 用得放心,因为现在所有人都在担心,如果AI 失控,会不会对生活产生很大的影响。所以我们希望有高安全性,同时也希望系统可靠,当然不想看到自动驾驶汽车一旦受到干扰就抛锚。所以用得起、用得好、用得放心,是期望在AI 数据中心里能够提供的。

 

演讲实录丨周斌:人工智能推动新基建和数据中心的技术革新_第5张图片

 

 

当然不仅是在数据中心,希望所有AI 系统都能使用这样的AI 案例。华为作为为大家提供硬壳基础设施的一家公司,我们以提供用得起、用得好、用得放心的AI 算力作为现阶段目标。在这里,我给大家分享一下华为Atlas 数据中心人工智能的解决方案,这是一个能够提供用得起、用得好、用得放心的全栈全场景的数据中心AI 解决方案。

 

我们从底层的AI 架构开始构建了面向不同场景的AI 芯片,包括昇腾310,这是一颗面向推理应用的,包括边缘推理、中心推理的强大推理芯片。昇腾910,这是一个主要面向AI 训练的芯片。基于这些底层的基础技术,打造了完整的AI 解决方案,包括数据中心的推理解决方案、训练解决方案,以及强大的AI 集群超算解决方案。这些解决方案的体现形式包括不同的AI 板卡、训练级板卡、推理板卡、推理服务器、训练服务器,以及大规模的集群系统。

 

在这些硬件系统之上,华为也推出了全栈的软件解决方案,包括有芯片使能的CANN(Compute Architecture for Neural Network)层,可以非常方便对整个AI 计算系统进行编程开发。在此基础之上,我们也提供完整的应用支撑,包括框架支持。华为推出自主知识产权的MindSpore AI 计算框架,也同样支持现在主流的TensorFlow、Pytroch 等,其他AI 框架也在不停拓展支持。

 

我们在这些AI 框架的基础上,推出Atlas 深度学习平台,它拥有用户管理、模型管理、数据处理等一整套体系,我们也和行业合作伙伴一起推出基于Atlas 深度学习平台的各种深度学习系统和完整的商业解决方案。针对不同的行业,我们推出行业的SDK,包括视觉智能、视觉处理、智能制造,以及能够感受到的各种千行百业的SDK。华为还会推出基于各种预训练模型的ModelZoo,能让大家非常容易获得最新的对应的state of the art 深度学习模型。基于全栈全场景的解决方案,我们也同步提供开发工具MindStudio,以及为大家进行开发者支持的昇腾社区。这个体系,涵盖了从底层的硬件到中间的软件平台到解决方案,再到行业应用、开发体系的一整套体系。在这个体系里,合作伙伴可以充分利用不同层的开放能力打造AI 最终产品。

 

华为Atlas 数据中心解决方案为大家提供了不一样的价值,主要体现在:第一,我们有超级的算力。AI 是非常消耗计算能力的体系,华为有自研的达芬奇框架可以提供最强的AI 计算;同时提供极致的散热技术、更优的能效比;也有端边云的协同设计,不管是在端侧边还是云端,一次开发可以多次部署管理,并且整个软硬件体系是开放的,能够使能伙伴做到开放应用。当然我们的端到端安全可信,安全作为第一要求根植在所有系统里。通过这样的体系,提供了用得起、用得好、用得放心的数据中心AI 的解决方案。

 

刚给大家分享了达芬奇架构,很多人要问既然AI 这么消耗计算能力,那么如何去满足它?这一代AI 计算的特点,90% 以上都是矩阵的相关计算,或者说张量相关运算。这些张量的相关运算实际上有特定的模式,华为设计了针对于张量计算的底层内核,叫做达芬奇内核。达芬奇内核的计算单元被称之为立方体,Cube 这样的一个计算单元,可以在每个时钟周期里处理4 096 个数据的乘累加。

 

演讲实录丨周斌:人工智能推动新基建和数据中心的技术革新_第6张图片

 

 

对比传统的计算模式, 不管是CPU 还是GPU,华为的达芬奇计算架构是专门为AI 计算所设计的芯片架构。在整个架构中,不仅有立方体的Cube 单元,而且还有针对矢量计算的Vector单元和针对标量计算的Scalar 单元,这几种单元协同配合,能够高效完成整个AI 计算。此外,在计算效率高的同时芯片面效比更强,对比业界的架构,可以具有两倍的面效比,所以能够提供高效率的AI 计算过程。基于强大的达芬奇内核,构建了数据中心的训练卡和推理卡,这些卡是基础单位,是我们设计中心的底座,训练主流模型最大吞吐领先业界三倍。我们也预置了视频预处理单元,大幅度提升视频解码能力。

 

训练服务器有极致能效的体系。为打造更优能效,华为提供了大量的底层核心技术和混合液冷设计,芯片降温,前面板蜂窝状开孔。我们的风扇设计等,使得Atlas 800 训练服务器能够达到业界最高的计算密度。

 

Atlas 900 集群基础单元,具有业界最高的能效比。在一个机柜里可以提供超过20 P FLOPS,也就是20 千万亿次每秒的计算能力。它的最大功耗只有43 千瓦时,这些都是极致的性能体验。基于上面的技术,我们打造了业界首个AI 集群,900 AI 训练集群的PUE 小于1.1,并且它的单柜散热能力、机柜数量和总能耗在相同情况下的对比,都是业界最领先的。这样的一个集群,它能够非常高效地完成复杂的AI 计算任务。

 

通过以上一些技术,华为Atlas 的数据中心人工智能解决方案在同等算力之下,投资成本更低,我们的数据中心总功耗比别人要节约很多;同等算力,电费节省可以到60%,并且算力密度更高,同等算力的机柜数可以节省超过80%。对比而言,在这样的一个体系里,华为提供了具备竞争力的解决方案,不仅有核心的硬件系统,还提供深度学习的软件平台和开放生态的参考架构。

 

华为自有深度学习平台参考架构。这些参考的框架,能够让大家基于我们的计算底座,快速便捷地开发大量的 A I 应用,方便伙伴和客户定制开发。我们提供了高性能的技术核心组件,并且是定向开放代码。同时我们的参考架构也支持一站式的训练和推理,支持高性能的训练调度,支持边缘协同的基础设施。基于云端训练,边缘推理的模式,我们可以实现边云协同的AI 算法模型,从发布更新推送整个闭环都可以在一个体系里,并且支持平滑兼容,方便应用。

 

这是异构计算的资源的统一调度,以插件化的形式支持整个计算资源的调度能力,并且基于基础设施的对接,提供旁挂式附件;不仅有数据中心,作为新基建的基础设施,还要提供端边云协同一体化的体验和部署能力。

 

我们在中心侧持续训练,可统一推送至边缘推理。开发的算法和应用模型,可以通过端边云的协同体系,高效推送到边缘侧,甚至是设备端成千上万及更多的大规模系统里。可以想象一下,在整个的生产系统里有无数的机器人,可以在一瞬间让它们学习到新的能力,并且把这个能力推送至机器人里。这个体系上建立了统一的开发、运维一整套体系,并且提供超级的安全通道,针对所有传输进行安全加密,对比业界提供的这样的一个体系,我们的管理系统节点更多。我们的数据仓库、模型仓库提供业界开源开放的主流一系列模型,帮助大家快速使用AI 一些能力。现在很多人开玩笑说,AI 一直在调参。我们提前把调参的工作给大家做好,省去了调参的麻烦。

 

 

演讲实录丨周斌:人工智能推动新基建和数据中心的技术革新_第7张图片

 

 

同时华为提供了开源的框架叫做MindSpore,它是一个自上而下的全栈自主可控开源开放框架。该框架具有非常多的友好特性,具有微分、自动并行、自动调优的技术,开发代码量可以减少20%,效率提升50%,面向昇腾芯片进行了专门的优化,所以在运行期也是非常高效的。我们有大量的底层优化算法,包括图、算子,编译过程的加速和神经网络的并行执行。协同昇腾芯片可以实现1.6 倍的性能优势,并且部署也非常灵活。我们可以全场景按需协同,通过自适应部署技术,实现从终端设备到云端的灵活部署。模型可大可小,并且整个MindSpore 是开源的,大家可以在网站上下载完整代码,可以支持进行更多的开发。我们把这样一套优秀的框架贡献给开源社区,奉献给整个社会。

 

我们内部有一句标语叫做自己的降落伞自己先跳,华为要验证自己的技术,所以内部的系统也大量开始使用自己的AI 解决方案。华为有大量的AI 任务,这些任务已经开始大量使用华为自己的AI 解决方案进行一些提升智能水平,提高效率,包括产品和解决方案、自动驾驶相关技术和产品、诺亚方舟实验室、媒体处理、智能手机、服务器、互联网络、基础设施,大量的体系都在使用华为Atlas 的智能解决方案。华为云大量的基于昇腾的解决方案,提供云服务,所以可以看到在华为体系内部,鲲鹏加昇腾构建出来的华为数字底座。我们在三年的时间里有10 万以上的设备在可靠运行中。这样的数字底座我们把它贡献给整个社会,希望能够大规模提升整个社会的智能化运行水平。

 

上面给大家分享了整个技术体系解决方案的软硬件介绍。接下来再给大家分享一下成功应用案例。

 

在华为松山湖的生产中心,我们的人工智能开始在“人工智能制造人工智能”,这是一个带点玩笑的话语。但在我们的制造产线上,Atlas 已经开始被应用到Atlas 的制造里。在质检的过程中,全面使用华为自己的Atlas 制造体系这句话说的有点绕,就是我们的人工智能已经开始参与制造自己。我们可以畅想一下可能在未来人工智能可以自我复制的时候, 是否这就会造成一个真正的智能社会到来。简单说一下,以质检环节为例,准确率由原来的90% 提高到现在的99.9%。我们知道,质检在整个生产制造的过程中消耗了大量人力,而现在使用华为的AI 系统可以快速高效的完成,并且AI 系统是能够兼顾传统基建与新基建的基础设施,通过云边协同、数据中心,我们模型实施训练中心,边缘系统实时进行升级,极大地提高了制造业的生产效率。

 

另外一个实际的案例是助力德阳综合分析平台的建设。现阶段整个社会安全依赖于前端接入的各种数据图像分析,这些分析之前也要消耗极大的计算能力。华为提供的数据中心解决方案和边缘侧的智能边缘解决方案这样一个平台,把整个数据视频结构化的效率提升了60%。这也非常感谢合作伙伴,提供了非常优秀的分析平台。

 

再有就是一个巨大的超级人工智能计算基础设施,鹏城实验室肩负着实现国家使命的创新技术平台。通过使用华为的Atlas 数据中心的解决方案,能够达到E 级的AI 算力。这样的算力相当于50 万台PC 的计算能力,并且我们提供了强大的通信网络,在这么多的计算单位上,我们的HCCL 集合通讯系统,支持超过100 TB 的无阻塞参数面的组网,再加上极致能效,这样的一台超级强大的AI 大脑能够应用在自动驾驶、智慧医疗、语音识别、自然语言处理等AI 业务上。

 

演讲实录丨周斌:人工智能推动新基建和数据中心的技术革新_第8张图片

 

 

之前,各位专家讲到的应用都可以充分地利用华为提供的计算能力。大家可以想一下,有了这么强大的AI 计算集群,我们可以做出来什么有意思的AI 业务。讲一个非常有意思的案例,我们通过Atlas 900 这个集群系统,帮助上海天文台极大地提升了对宇宙探索的效率。之前,我们要分析这样一个每年产生大约600 PB 数据,专家手工分析需要169 天,现在使用Atlas AI 集群只需要10 秒钟就可以完成。在这个复杂的处理任务上,Atlas900 集群取得了非常好的成绩。

 

现在大家非常喜欢的网络直播,Atlas 支撑虎牙进行AI 业务云上的部署,整个投资额降低了30%,并且它的效果得到了提升。通过基础设施、AI 数据中心,可以为各行各业提供非常好的效果。AI 不仅可以用在应用里,也可以运维AI,使用AI 可以极大地节约能耗,高效地预测可能发生的问题。我们还有机器人的智能巡检,出现了自动识别、声音检测、设备异常识别一整套AI 体系,来确保能够高效率运行。每年我们用AI 来运维AI,节约电费近千万元。

 

在这里,我希望把数字世界带入到每个人、每个家庭、每个组织,构建万物互联的智能世界。华为作为智能世界基础底座的提供者,帮助大家一起来构建美好的AI 时代。

 

 

你可能感兴趣的:(人工智能)