深度学习提速280%!阿里云性能怪兽GN6 V100 GPU实例深度测试

在 GTC 2017 大会上,NVIDIA 的 CEO 黄仁勋正式发布了其新一代旗舰计算卡 Tesla V100,但是一项技术从发布到真正使用到生产环境中,仍需要大量的时间。V100 何时才能够被广大消费者接触到呢?阿里云首先交出了自己的答卷。

近期,国内云计算一哥阿里云开启了新一代高性能 GPU 计算云服务器 GN6 系列的公测,也是国内运营商中首个提供最新 NVIDIA V100 GPU 的云服务提供商。

深度学习提速280%!阿里云性能怪兽GN6 V100 GPU实例深度测试_第1张图片
image

据悉,新的计算实例搭载最新的 NVIDIA V100 计算核心,宣称可带来数倍的深度学习性能提升。究竟搭载英伟达V100的阿里云GPU实例有几把刷子,我们申请了一台最新的GN6系列云服务器,进行了深度测试,一起来看下。

人工智能市场爆发 GPU云服务器成香饽饽

云服务商 产品系列
阿里云 GA1(AMD S7150)、GN4(NVIDIA M40)、GN5(NVIDIA P100)、GN5i(NVIDIA P4)、GN6(NVIDIA V100)
腾讯云 GA2(AMD S7150)、GN2(NVIDIA M40)
百度云 NVIDIA P40、NVIDIA P4、NVIDIA K40

随着人工智能的发展,基于 GPU 的异构计算开始不断升温。特别是传统的 CPU 通用计算由于受到半导体工艺、存储带宽瓶颈等问题,开始在人工智能的运算中显露疲态。而 GPU 由于省去了 CPU 中复杂的控制流,可以将所有算力都投入到深度学习所需要的矢量运算中去,大大提高了算力和算力利用率。

除了性能之外,带来的更多的还是成本的降低。按照传统方案,云服务商可以采购4个机架、共160个CPU服务器,在功耗65千瓦的情况下提供每秒45000张照片的处理能力。而如果换成GPU的产品,你可能只需要一个装有8片GPU的服务器,同样的每秒45000张照片处理能力,但是你只需要7个服务器插槽,总共的功耗也只有3千瓦。

深度学习提速280%!阿里云性能怪兽GN6 V100 GPU实例深度测试_第2张图片
image

在公测期间,用户可以登陆阿里云平台提交测试申请,提交申请的用户会拿到阿里云异构计算平台提供的 GN6 云服务器,进行业务和平台验证。如果你像我一样,忍受不了长时间的计算,那么GN6系列可能是在目前所有的选择中最合适的那一款。

得益于搭载的 NVIDIA V100 GPU 拥有的新的 VOLTA 架构及新增的 Tensor 单元等因素,GN6 云服务器相比前代 GN5 云服务器拥有更加强劲的性能,能够以更少的时间花费来完成计算。

从P100到V100 性能提升近300%

深度学习提速280%!阿里云性能怪兽GN6 V100 GPU实例深度测试_第3张图片
image

我们也通过申请拿到了一台 GN6 云服务器( 实例 ID ecs.gn6p-c8g1.2xlarge,8 vCPU ,32GB 内存)来测试,同时我们还购买了几个同配置的其他机型,来进行对比测试,具体的测试结果如下:

使用 MXNet 框架,测试 Inception-V3 网络在 ImageNet 数据集的图像分类训练的 Benchmark 性能
深度学习提速280%!阿里云性能怪兽GN6 V100 GPU实例深度测试_第4张图片
image
使用 NVCaffe 框架,测试 GoogLeNet 网络在 ImagNet 数据集的图像分类训练性能
深度学习提速280%!阿里云性能怪兽GN6 V100 GPU实例深度测试_第5张图片
image

目前来说,社区的框架还没有更新到能够完全利用 TensorCore 的水平,所以性能无法达到在发布会上声称的十数倍的提升,不过即使是在这种情况下,我们测试到的结果依然表现不俗,性能相比于前代 GN5 云服务器提升了接近 3 倍。同样工作量的训练任务工作时间将压缩过半。

随着后续机器学习框架不断升级优化,TensorCore 的性能将得到全面发挥,将会给机器学习带来再一次大幅度提速。

姗姗来迟的基础镜像 云服务器开箱即用

一直以来,我们购买 GPU 云服务器后,都需要花费大量的时间来进行基础环境的配置、安装 NVIDIA 的驱动。在此处更新中,阿里云还上线了新的基础镜像,新的基础镜像预装了 NVIDIA GPU 驱动和深度学习框架的系统镜像,我们在云服务器启动随即可以准备开始进行深度学习的计算,大大节省了环境配置的时间,减少重复工作,GPU 云服务器也终于做到了开箱即用。

创建云服务器时,开发者可以直接在选择镜像时在镜像市场搜索“深度学习”,就可以找到预装深度学习框架的系统镜像,点击使用就可以直接创建开箱即用的 GPU 云服务器。

深度学习提速280%!阿里云性能怪兽GN6 V100 GPU实例深度测试_第6张图片
image

我们在使用 GPU 云服务器进行深度学习所需要的准备时间从原来的数个小时缩短到了不到五分钟,确确实实节省了大量的工作时间。

总结

就目前人工智能而言,已然进入战国时代,而且各家的产品都有可能在这个广阔的市场中找到自己的定位和细分市场,从跑分来看,阿里云的 GN6系列云服务器是市面上性能最强的GPU云服务器,,没有之一。在易用性上,一键部署、镜像市场等服务都有不俗的表现。

在价格方面,阿里云GN6相比同类的V100服务器要低上不少,让我们看到了作为云计算领军者的诚意。同时我们也相信未来会有更多的云厂商推出类似的服务,让整个人工智能市场拥有强大的计算能力。

你可能感兴趣的:(深度学习提速280%!阿里云性能怪兽GN6 V100 GPU实例深度测试)