英伟达Nvidia 2018 GTC大会整理

本次英伟达GTC大会总共三天,有不少赞助商:


赞助商

总体参会感受上,我总结为如下几点

  • 华为、百度等企业,基本上他们的AI计算平台既有部署在公有云上的,也有直接为企业部署私有云的。另外像华为、百度等,也销售自己独立的服务器。

  • 大部分企业是以展示自己的服务器为主,软件只是一个配套产品,有的展示,有的不展示。

  • 提到AI计算平台的企业总体不多,大概有这几家:华为、浪潮、百度、阿里、还有两家联合展台。

  • 提到AutoML的也不多,其中百度是在其中一个培训会议中讲解他们的PandlePandle时,提到他们有专门的AutoDL;另外一个就是控智立方,他们也是完全自主研发的,叫DarwinML,主要采用进化算法技术,实现机器学习以及深度学习的自动建模。

  • 很大一部分的企业是提供面向独立场景解决方案的。比如自动驾驶、机器人、人物视频动作分析、虚拟现实等。其中的代表应该就是腾讯AI了。

在技术趋势上,以及在平台建设上,主要有以下特点

  • 一个完整的AI整体解决方案,越来越多的体现在如下几个方面(计算要快,通信要快,存储要快)

  • 大型的GPU训练集群的支持

  • 高速低延迟通信网络的支持,如NVLink,RDMA等

  • 高速网络存储的支持

  • 大数据、云平台、分布式存储的结合,AI计算平台与这些结合在一起,构成一个比较完整的生态图

  • AI计算平台的建设,以及集群监控管理平台的建设

  • 分布式AI计算的能力,其中包括同步训练和异步训练的支持

  • 大规模异构计算集群的支持

  • 深度强化学习、迁移学习的研究趋于热门(一切都是为了降低人力成本,降低使用复杂度)

  • AutoML,AutoDL开始流行(主要体现在百度和探智立方两家公司上)

  • 模型优化,以及模型压缩技术的流行(因为越来越多的模型需要运行在一些端到端设备上,模型太大会造成在这些设备上不可实现)。

  • GPU的并行计算,以及共享计算的支持。有时候需要多个GPU同时计算;有时候是多个服务都需要GPU,但是并不需要独占整个GPU,这个时候为了提高GPU的利用率,需要共享计算的支持

  • AI相关技术的开源成为一种趋势,英伟达、intel,百度等公司都公布了大量的开源组件。

在AI软件计算平台上,主要几家的平台建设方式如下

  • 百度:完全自主研发,计算框架是公司自己的PandlePandle,也是国内唯一一家自主研发计算框架的公司。百度提供了一个完整的AI技术体系:

    • 训练框架、推理框架、可视化、AutoDL,AI Studio,以及强化学习工具等

    • 提供服务器、高速网络、高速存储、并行、异构等的支持

    • 将百度前期在具体行业的AI建模成果,逐步集成到PandlePandle中,并将很多的模型应用开源出来,并特别说明会提供官方支持

  • 阿里:主要是他们的阿里PAI,该平台主推的计算框架是tensorflow

    • 硬件方面,同样提供服务器、高速网络等的支持

    • 内部包含了PAI-EAS,PAI-TF,PAI-OCR,异构团队等

    • 其中PAI-TF主要是针对tensorflow,并对其进行封装和优化

    • 模型优化等

    • 支持公有云和私有云

  • 浪潮:主要计算框架是tensorflowcaffe,平台应该也还在建设中,目前并不完备

    • 他们同样对支持的两款计算框架,做了对应的封装,分别叫作Caffe-MPITensorflow-Opt
  • 华为:与阿里类似,但起步较晚,目前华为的MLSDLS正在快速发展。

    • 硬件方面,类似阿里

    • 平台方面,目前已支持tensorflowMXNetCaffe

    • 同样提供基于这些计算框架的封装库:moxing

    • 支持公有云和私有云

  • AWS:调研的不多,主要是从他们的讲座中,知道一些

    • AWS主推MXNet,并对它做了很多优化和封装。

    • AWS公布了很多行业应用数据集。

会场调研

华为

华为的深度学习平台,我可以通过现场的笔记本进行操作,发现他们展示的深度学习平台跟华为官网上的DLS不大一样,经询问,这是他们的最新版本,与官网的整体设计风格是一致,主要是加了一些功能,另外对有些功能做了整合。

华为这次展示的其中一项是自己的服务器,并且深度学习服务就是独立部署在这台服务器上的。

2018-11-23-15-32-30.jpg

主要功能大致如下:

  • 总览:与官网类似,有一个总体的开发流程示意图,然后是各类作业资源的运行情况统计图。

  • 代码开发:就是jupyter notebook,用户可以建立多个开发环境。

  • 数据管理:就是数据集管理,华为是专门为数据集做了这个维护界面,应该是让用户在选择时更加方便。

  • 模型训练:两个TAB页,一个是训练任务列表页面,可以点进去查看任务明细;一个是可视化页面,主要是针对Tensorboard。

  • 模型管理:也是多个TAB页,一个是用户自己的模型管理,一个是平台内置的模型库。

  • 推理服务:他们的查看服务详情,可以直接出现推理操作界面,比如如果是一个图片类的推理,界面中可以直接上传图片。

  • 资源监控:我在第一天看他们调试环境的时候,应该是以管理员账号登录的,有这个功能。后来我自己操作的时候,看不到这个功能。应该是只针对管理员开放这个功能。

浪潮

浪潮有两个展台,分别代表了浪潮以及浪潮商用机器两家公司。后者应该是个子公司。下面分别简单介绍一下。

其中浪潮展台主要展示了两部分,一个是他们的硬件服务器架构体系,一个就是他们的AI软件解决方案平台。

126760746251263930.jpg

展台所描述的与他们官网上的说明基本是一致的,自下而上描述:

  • 最底层就是硬件服务器环境(有GPU训练集群、有数据集的存储集群、也有云存储服务)

  • 往上一层,就是他们的AIStationTeye。这个在之间的调研中研究过,其中AIStation就是计算平台,专门负责应用环境、训练任务、作业调度、资源监控等。而Teye全称叫应用特征监控分析系统,从官网上看到的就是针对GPU、CPU等的的实时运行分析。

  • 再往上,就是他们针对计算框架的封装,比如Caffe-MPI和Tensorflow-Opt,主要目的应该就是为了简化开发流程,以及可以与平台深度集成。这是一把双刃剑,做的好的话,用户会非常乐意使用,但是做的不好的话,也会成为限制平台发展壮大的瓶颈。

  • 最上层就是行业AI解决方案,是面向特定场景应用的。这几乎在所有AI平台中都有,也是少不了的。

关于Caffe-MPI和Tensorflow-Opt,其实是涉及到一个问题,就是需不需要对第三方的计算框架做一些优化封装。优化封装的好处是我们可以提供更高一层的抽象,大大简化用户开发;并且可以集成一些我们自己的特色。而缺点是,一方面在某些程度上增加了用户的学习成本,一方面因为计算框架太多,需要适配的框架太多。

就目前来说,华为、百度、以及浪潮都是对计算框架做了封装的。我个人感觉是需要做这一步的,因为未来的工具,一定是越简单用的人越多。

下面再提一下浪潮商用机器这个展台,这也是一个独立的公司,是浪潮IBM合资的公司,其中浪潮占51%的股份。这个公司主要是用来销售IBM的Power AI体系下的相关软硬件,其中硬件部分我没细问,但是软件平台部分就完全是这个Power AI。特别说明一点,他们的解决方案架构图中提到了H2O ML

百度

感觉真正的代表了AI整体解决方案,展台展示了他们的服务器,以及整个百度AI平台软件栈。

  • 有硬件支持

  • 有自主研发的计算框架支持

  • 有高速存储服务

  • 有大量经过生产检验的真实AI模型

腾讯

腾讯展台主要展示的是他们在AI具体领域内的应用,也就是说他们提供的是具体场景下的解决方案服务。比如视觉、语音、文字、视频等方便的应用服务。

腾讯也有自己的机器学习平台,但是在展台中并没有展示。

腾讯AI Lab,目前有80多名研究员,300多名工程师(讲座里提到的)。

软硬联合的两个代表

这里主要介绍两个展台,他们分别都是两家公司拼在一起,组成一个展台的。特点就是硬件一家公司,软件一家公司,两家一起拼成一个完整的解决方案。

越海扬波+联科

其中越海扬波是专门卖服务器的,联科CHESS平台主要是用来做集群管理以及任务调度的。如下图:

2018-11-23-16-19-58.jpg

我大致看了下,在集群管理上做的比较多,AI方面体现的比较少,主要就是GPU的监控。

AMAX+Mellanox+中科类脑+StorSwift

这次大会,一个非常深刻的印象就是对于AI来说,需要强大的硬件服务器,需要低延迟的高速网络,需要分布式存储,需要计算平台,几乎每一家提供整体解决方案的企业,都或多或少的体现了这几个方面!

这一个展台就是应该是合作方最多的,AMAX卖服务器的,Mellanox卖交换机等通信设备的,中科类脑卖软件平台的,StorSwift卖高性能网络存储的。

其中 中科类脑就在合肥,好像在中科大先研院里面。

探智立方

这是一家专门做AutoML的,他们提供的平台叫作DarwinML,与我之间对AutoML的研究相同,主要是为了简化建模过程。

2018-11-23-18-22-30.jpg

他们该平台的主要特点是:

  • 完全自主研发的

  • 提供完整的模型基因库(应该是结合了机器学习算法以及深度学习算法,类似提供组建模型的积木)

  • 核心使用进化算法,通过几代的进化,就能得出比人类建模效果好很多的模型。

  • 并行计算的能力。

  • 他们的平台也提供模型在线服务的功能。

总体而言,参加这次GTC大会,收获不小,开阔了眼界!

你可能感兴趣的:(英伟达Nvidia 2018 GTC大会整理)