华为昇腾云服务与多媒体应用融合创新

华为云全新推出昇腾AI计算解决方案,并且从官宣的数据来看,在部分应用场景的表现均优于行业内其他产品。本文来自华为云异构计算服务的产品总监 赵刚在LiveVideoStackCon2019深圳站上的精彩分享,文章中详细介绍了华为云如何加速互联网视频、智慧零售、智慧园区、泛金融认证、智慧医疗等行业创新。

文 / 赵刚

整理 / LiveVideoStack

大家好,我是来自华为云异构计算服务的产品总监赵刚,很高兴能与大家分享华为的昇腾AI计算解决方案在音视频领域所做的一些工作和努力,我们团队在过去一段时间一直都在思考如何在华为云释放昇腾算力。

1. 视觉相关AI计算行业分析

首先为大家介绍一下华为昇腾AI计算解决方案能做哪些事情。

华为昇腾云服务与多媒体应用融合创新_第1张图片

方案主要适用于视觉计算领域,大家其实可以看到视觉的市场空间比较大,权威机构预测在2020年会有700亿人民币的市场空间,这些市场主要分布在安防、营销、泛金融认证以及互联网视频娱乐行业。

华为昇腾云服务与多媒体应用融合创新_第2张图片

华为昇腾云服务在POC公测期间做过很多的尝试和努力,首先是对公测期间客户的反馈进行了统计分类,在统计结果中团队发现在视觉相关的AI行业有互联网、智慧零售、智慧园区、泛金融认证以及智慧医疗这五类应用场景,在这几类客户的公测过程中,团队发现其业务架构可分为4大类,首先是一个视觉采集平台(包括各种前端的采集设备),采集图像后会通过AI推理平台(该平台就是昇腾AI计算解决方案的使用目标)进行一些常见的AI推理,例如:图像分类、人脸识别等等,得到推理结果后将数据发送到用户的应用数据分析平台,做与应用相关的处理,以及最终消费数据的终端设备

2. 昇腾云服务的云、边、端形态

华为昇腾云服务与多媒体应用融合创新_第3张图片

昇腾AI计算解决方案的底层架构以及在云、边、端侧的形式如图所示,中心云的4个云服务实例,推理领域主要分为鲲鹏推理加速型、X86的AI推理加速型,其余两个主要是训练领域,这些个领域的主流应用经过实测,与同类其他的产品相比提升了2倍以上的综合性价比。尤其是在AI训练领域,我们的理念主要是暴力计算,昇腾910单芯片的算力比较强,支持256TFLOPS的FP16算力,那么单个裸金属的算力可以高达2PFLOPS@FP16,集群化之后可以扩展到最大256P,具备很好的扩展性。

2.1 华为AI解决方案,全栈全场景赋能

华为昇腾云服务与多媒体应用融合创新_第4张图片

大家普遍认为在2019-2020年左右整个AI的算力是NPU升级的爆发时期,同时大家也认为目前的AI推理算力正在升级,各种AI芯片层出不穷,预计在2025年AI专用芯片组的出货量全球大概可达到725亿美金左右,其中NPU的出货量会占一半以上。

如图所示,华为全栈自研的技术栈最下方是底层的技术芯片,首先华为会设计好AI芯片的技术架构,再之后推出一系列的芯片,从可穿戴设备到智慧屏再到数据中心和边缘侧的Ascend-Mini,再到训练的Ascend-Max,但是如果想在云上或者线下将这些AI芯片计算的能力完全发挥出来,光靠芯片是不够的,还需要构建CANN层,也就是算子层。

CANN层实际是芯片的使能层,芯片中的AI算力的使能,还需要根据AI芯片的架构研发最适合其的算子库,实现AI网络的各种OP以及各种层次的计算。华为的技术栈目前可以支持大部分的Caffe和TensorFlow的基础算子。

2.2 达芬奇架构

华为昇腾云服务与多媒体应用融合创新_第5张图片

昇腾云服务最核心的基础是达芬奇架构,其设计理念是“大核”,即1个时钟周期可以做4096个FP16的Mac运算,有了这个大核的优势之后,通过暴力计算,就可以缩短整体AI计算的周期,因此大大缩短了推理时延,尤其是边缘侧的推理时延。

2.3 昇腾中心云服务

华为昇腾云服务与多媒体应用融合创新_第6张图片

昇腾云服务是基于是单卡4芯的Atlas300的AI加速卡构建的,单卡可支持64T INT8的算力和32G的内存和64路实时高清视频分析。

需要额外说明的是,AI计算领域在实际应用时不能仅看芯片的算力,不同AI 芯片的设计理念是不一样的,理论算力与网络模型实际运行的算力是存在差异的,如图右侧是华为的部分测试数据,总体性能较业界提升2倍左右。

2.4 昇腾边缘云服务

华为昇腾云服务与多媒体应用融合创新_第7张图片

上图所示是昇腾边缘云服务的基座之一,即昇腾Atlas500智能小站,其主要优势是算力高功耗低,功耗在25-40瓦之间,非常适合边缘场景的应用,算力是16T的INT8、16路高清视频实时分析,该设备在华为云有支持边缘云的IEF服务,可以在中心云上通过IEF服务很便捷的为边缘的atlas500智能小站上制作容器镜像然后将AI推理应用很快捷的部署在边缘上,昇腾云服务实际上是中心云+边缘云的整体融合的全网AI推测的技术栈。

2.5 昇腾端侧模组

华为昇腾云服务与多媒体应用融合创新_第8张图片

上图所示是端侧的模组,目前中心云和端侧的互动还在探索中,端侧模组体积很小,可以很方便的嵌入到端侧的设备上,由于该设备与边缘的云服务是同态化的,可以很好的实现一体化的管理,

3. 昇腾AI计算解决方案总体架构

华为昇腾云服务与多媒体应用融合创新_第9张图片

昇腾AI计算解决方案可以为客户带来很多技术上的优势,如图所示是昇腾AI计算解决方案整体的架构呈现,左边是典型的视频采集设备,中间是昇腾AI云服务,客户应用可以部署在华为云的昇腾云服务上,最终返回到其端侧设备上。

昇腾AI云服务的核心是昇腾310推理集群和昇腾910训练集群,主要希望为大家提供高性能、高弹性,边-端-云全网融合的AI计算能力的解决方案。

昇腾310推理集群,POC期间我们将一些客户和伙伴的AI网络进行简单适配到昇腾310的设备上,部分AI模型性价比会有2-3倍的提升,集群的调度管理上可以提升30%的性能,体现了高弹性服务能力。

目前很多AI解决方案都部署在中心云侧和边缘侧在多数场景这两类节点实际是两个不同的设备,因此在部署时会面临AI模型的重新训练和重新适配的问题,而且边缘侧的设备多样化,很多模型需要重新训练。华为云的昇腾AI解决方案在中新云和边缘云的芯片都是昇腾,支持用户进行同态化部署,很多场景都不需要重新训练模型。

图中右侧是团队的主要工作,在公测期间发现很多客户在使用AI芯片时会有一定适配工作量,目前我们的客户可以在一天以内完成迁移和评测,对于降低不适应做了很多优化,其中包括昇腾serving的服务框架,可以支持客户进行模型版本管理、支持RestFull的接口、任务管理、日志管理以及模型的自动转换。经过服务层后与客户进行对接,由于部署是在云服务上进行,此过程还会涉及到OBS的对接、文件存储的对接、以及边缘的对接等。

AscendGraph层主要处理AI模型,的编排,昇腾云服务针对不同的行业做了很多不同的模板,这些不同的模板可以便捷的发挥底层芯片的能力,在测试的时候我们发现,某AI模型的初始的推理性能为400多张每秒,经过昇腾Graph进行了调优处理,的,性能可以达到660多张每秒,提升了50%的性能,用户可以按照模板进行适配相应业务,可以得到较大的性能提升。

架构的最底层是昇腾算子开发,由于华为云的AI技术开发是一个全栈的技术,主要体现在我们开放的AI框架支持底层的算子用户自定义开发,比如某些用户的算子模型的私密度很高,就可以支持自行开发算子,实现更好的性能提升。

3.1 存储架构

华为昇腾云服务与多媒体应用融合创新_第10张图片

昇腾AI计算解决方案的存储架构的理念:让AI芯片100%繁忙,没有I/O等待的时间。首先在客户场景做一些本地加速,放置NVMe SSD存储单元,在训练领域使用较多;设置共享计算层,支持All-flash的小文件共享存储,对于不常访问的数据使用OBS进行持久化的存储。

3.2 昇腾AI容器平台

华为昇腾云服务与多媒体应用融合创新_第11张图片

基于华为云的CCE的服务能力,以及Volcano任务调度服务,昇腾AI推理和训练的性能都有30%的提升,目前很多公司都在进行容器化的改造,直接使用容器来实现整个计算能力的部署和调度,目前昇腾AI容器平台的Volcano和CCE两层支持比较多的主流框架,其调度能力为客户带来很多优化。

3.3 边缘水平AI解决方案

华为昇腾云服务与多媒体应用融合创新_第12张图片

边缘昇腾AI计算解决方案在云上部署AI模型,可以根据业务的时延敏感性灵活的放到边缘侧,由于可以同态化的部署,因此几乎不需要做模型的改造就可以通过智能边缘平台IEF的服务进行云上的训练调优、边缘侧推理的全部流程,边缘式同态化一键式的部署环境可以为用户带来很好的体验,边缘侧的功耗低,应用的场景多,能耗比高,具有极致性价比。

另外,在边缘侧提供了开放社区和云市场的生态,云市场上的解决方案可以推送到边缘侧的设备上,因此很多伙伴可以共同构建云市场生态。

4. 昇腾AI计算解决方案客户案例

4.1 互联网视频直播解决方案

华为昇腾云服务与多媒体应用融合创新_第13张图片

当前很多互联网公司在AI算力上支出较大,一个较为普遍的观点是:到2020或2021年AI算力的支出会超过通用算力的支出,在这种情况下,AWS和华为都有推出NPU的解决方案,目前都在进行尝试和探索来解决AI算力支出过高的问题。

在我们的探索过程中团队首先关注的是AI推理侧的创新,用户将推理平台部署在昇腾云服务的AI解决方案上,在实测中,很多场景和模型的综合性价比提升都在2-3倍,成本也降低了40%左右。昇腾云服务中自带有实时编解码能力,单颗芯片支持6路720P的实时编解码能力,8U32G的实例可以实现24路的实时编解码能力,因此性价比较高。

4.2 智慧园区/零售解决方案

华为昇腾云服务与多媒体应用融合创新_第14张图片

对于智慧园区和智慧零售的解决方案,大多客户都会进行私有化部署,但很多应用对时延没有很高的要求,在中心云部署即可满足,因此推荐使用昇腾AI云服务,这样推理成本会降低30%以上,性能可以提升2.5倍左右,同时支持客户业务的快速增长,另外当因服务节点增加而增加基础设施服务时,可以在云上很简单实现,目前我们在一些初创公司都取得了很好的性价比提升的效果。

5. 小结

华为昇腾云服务与多媒体应用融合创新_第15张图片

昇腾云服务希望可以为业界提供更好的AI计算的平台,提高性能和降低运营成本。当前,昇腾云服务可以满足大多场景的AI算力需求,且综合性价比提升较多,边缘侧部署的能耗比很好,并且可以开放更多的全栈能力,支持全流程的开放,注重客户隐私方面的保护。总体来看云、边、端融合的架构构建全网的AI能力是昇腾云服务的整体目标。

你可能感兴趣的:(华为,云服务,云服务器,多媒体)