【CUDA开发-并行计算】NVIDIA深度学习应用之五大杀器

来自吉浦迅科技 整理发布

http://mp.weixin.qq.com/s?__biz=MjM5NTE3Nzk4MQ==&mid=2651231163&idx=1&sn=d48b4480da3481de8ae20e78b1ee22df&scene=23&srcid=0605uZ1nd6QlqnK6AJdMlZkI#rd




第五名:Tesla K80

  Tesla ——英伟达高端大气上档次专用计算卡品牌,以性能高、稳定性强,适用于长时间高强度计算著称。

       Tesla K80 双GPU 加速器可透过一卡双 GPU 提供双倍传输量,内置24GB GDDR5 存储器,每颗 GPU 有 12GB 存储器,比上代Tesla K40 GPU 提供多两倍存储器可处理更大的资料集分析。Tesla K80 内建4,992 CUDA 并行运算核心,可比仅用CPU 运算提升高达10 倍应用加速效能,单精度峰值浮点性能为8.74 Teraflops,双精度峰值浮点性能为2.91 Teraflops,峰值内存带宽为480 GB/s,非常适合于数据密集型应用。 

【CUDA开发-并行计算】NVIDIA深度学习应用之五大杀器_第1张图片

特性

Tesla K80

Tesla K40

GPU

颗 Kepler GK210

1 Kepler GK110B

峰值双精度浮点性能

2.91 Tflops (GPU 动态提速频率)
1.87 Tflops (基础频率)

1.66 Tflops (GPU 动态提速频率)
1.43 Tflops (基础频率)

峰值单精度浮点性能

8.74 Tflops (GPU 动态提速频率)
5.6 Tflops (基础频率)

5 Tflops (GPU 动态提速频率)
4.29 Tflops (基础频率)

存储器带宽(ECC关闭)2

480 GB/s (每颗GPU 240 GB/s)

288 GB/sec

存储器容量(GDDR5)

24 GB (每颗GPU 12GB)

12 GB

CUDA核心数量

4992 个 (每颗 GPU 2496)

2880


上榜理由:双精度计算之冠,舍我其谁?

适用机型:机架式服务器

市场零售价:3万人民币 



第四名:Tesla M40

      Tesla家族第一款Maxwell架构计算卡! Maxwell架构除了双精度是弱外,其他各方面都十分优秀,比如加入了寄存器的缓冲,用来消除寄存器的bank conflict,再比如加入远程原子操作,即shared memory能自行计算,不占用SP,同时还提高了原子操作的性能。

      英伟达号称Tesla M40 GPU 加速器是全球快的深度学习训练加速器,专为显著缩短训练时间而定制。采用了完整的麦克斯韦架构大核心GM200,3072个CUDA核心单精度浮点计算突破7TFlops,而双精度几乎只能呵呵了。

特性

Tesla K80

Tesla M40

GPU

颗 Kepler GK210

1 Maxwell GM200

峰值双精度浮点性能

2.91 Tflops (GPU 动态提速频率)
1.87 Tflops (基础频率)

0.21Tflops

峰值单精度浮点性能

8.74 Tflops (GPU 动态提速频率)
5.6 Tflops (基础频率)

7 Tflops

存储器带宽(ECC关闭)2

480 GB/s (每颗GPU 240 GB/s)

384GB/sec

存储器容量(GDDR5)

24 GB (每颗GPU 12GB)

12 GB

CUDA核心数量

4992 个 (每颗 GPU 2496)

3072


上榜理由:高富帅之不需要双精度的首选,你值得拥有!

适用机型:机架式服务器

市场零售价:3.3万人民币 


第三名:Titan X

           小编觉得让GPU在机器学习上真正开始发扬光大的是Titan X的出现!

【CUDA开发-并行计算】NVIDIA深度学习应用之五大杀器_第2张图片
       同样采用了完整的麦克斯韦架构大核心GM200,3072个CUDA核心,单精度浮点计算7TFlops,12GB显存,再加上同时发布的英伟达DIGITS深度学习GPU训练系统的加持,更是让数据科学家和研究人员如虎添翼,能够通过更快的模型训练和更复杂的模型设计来创造更准确的神经网络,从而加速其深度学习项目和产品的开发工作,也因此让Titan X声名大噪!关键让人泪奔的还有价格:9千人民币有找!


特性

Titan X

TeslaM40

GPU

1 Maxwell GM200

1 Maxwell GM200

峰值双精度浮点性能

0.21Tflops

0.21Tflops

峰值单精度浮点性能

7Tflops

7 Tflops

存储器带宽(ECC关闭)2

384 GB/s

384GB/sec

存储器容量(GDDR5)

12 GB

12 GB

CUDA核心数量

3072

3072


上榜理由:屌丝的逆袭!

适用机型:塔式服务器/工作站

市场零售价:8866元人民币(以华硕Titan X某东商城价格为例) 


第二名:GTX1080

       上个月英伟达 正式发布了新一代旗舰显卡 GeForce GTX 1080,应该算是首款Pascal上市的显卡产品。

        Pascal架构的Half2向量操作特性,免费了200%的性能(不过是半精度),可以说早买早收益。而本月英伟达最新的cuDNN5开放下载,可以在单一NVIDIA Pascal GPU上最高实现44%的训练速度提升,这使得GTX1080充满了期待。尽管有开发者表示显存没有Titan X高,但谁叫GTX1080的价格只有Titan X的2/3呢?

【CUDA开发-并行计算】NVIDIA深度学习应用之五大杀器_第3张图片

特性

Titan X

GTX1080

GPU

1 Maxwell GM200

1 Pascal GP104

峰值双精度浮点性能

0.21Tflops

N/A

峰值单精度浮点性能

7Tflops

9 Tflops

存储器带宽(ECC关闭)2

384 GB/s

320GB/sec

存储器容量(GDDR5)

12 GB

8 GB

CUDA核心数量

3072

2560


上榜理由:让NVIDIA在机器学习的道路上走得更加深远

适用机型:塔式服务器/工作站

市场零售价:5600元人民币(华硕GTX1080某东商城开始预售) 



第一名:Tesla P100


        小编只能说:这是一款大杀器,所有资料都来自于网路上。传言,它只开启了3584个单精度、1792个双精度核心,即便如此,单、双精度浮点性能也高达10.6TFlops、5.3TFlops,同时还搭配了4096-bit 16GB HBM2高带宽显存,并支持全新的NVLink互连总线,取代传统PCI-E

       ——它就是传说中的Tesla P100!  英伟达声称将推动深度学习和HPC应用性能跨越式发展:其中,全新的Pascal架构实现了巨大的性能飞跃,半精度指令为深度学习提供了超过 21 Teraflops 的峰值性能;NVLink 将CPU与GPU之间的带宽实现5倍加速、CoWoS 和 HBM2带来3倍带宽提升;页面迁移引擎带来了无限制的寻址能力,实现更强的可编程性。    【CUDA开发-并行计算】NVIDIA深度学习应用之五大杀器_第4张图片

       网上传言单颗P100都能干掉两颗M40,领先幅度10-20%不等,而对比消费级游戏卡,P1001颗已经相当于GTX Titan X四颗的水准。

      而最新发布的cuDNN5也特别强调了对Tesla P100的支持!


上榜理由:高富帅的顶级装备

适用机型:NVIDIA DGX-1

市场零售价:据说不-单-卖!


你可能感兴趣的:(并行计算-CUDA开发)