如何利用 NVIDIA 安培架构 GPU 的新一代 Tensor Core 对计算进行极致加速

时隔三年,英伟达最强芯片 Tesla V100 终于有了继任者,那就是在2020年5月14日, NVIDIA发布的最新GPU A100

GPU A100不仅能实现 1-50 倍的扩展,还让其吞吐性能翻倍。而其吞吐性能提升的主要功臣是其架构中搭载的第三代Tensor Core单元。

Tensor Core是怎么做到这些的?如何在现有的函数库与Kernel中使用Tensor Core?有没有落地实践案例可以做参考呢?如果你想了解更多关于Tensor Core的信息,

那么这个分享绝对不能错过!

英伟达即将在2020年 8月26 日 20:00-21:30进行“看搭载了第三代Tensor Core的A100如何实现了吞吐性能翻倍”的直播分享,直播主要内容如下:

直播介绍:

2020年5月14日, NVIDIA发布了最新的GPU架构:安培, 以及基于安培架构最新的GPU A100. 在安培架构中新增了功能强大的第三代Tensor Core单元。

相较于V100,  A100上搭载的第三代Tensor Core增加了对DL和HPC数据类型的全面支持, 提高了各精度的运算吞吐能力,同时新增稀疏运算特性,进一步实现了吞吐性能翻倍。

第三代Tensor Core新特性如下:

  1. 新增了Tensor Float-32(TF32)数据类型操作,提供了对FP32数据的加速能力,相较于V100 FP32的FFMA拥有10倍加速性能,相较于A100 FP32的FFMA拥有8倍加速性能。

  2. 新增了Bfloat16(BF16)数据类型操作, 与FP16拥有相同的吞吐性能. 相较于V100, A100 GPU获得2.5倍TOPS提升, 单个SM上获得2倍性能提升。

  3. 相较于V100,  A100 新增了INT8, INT4, INT1整数数据类型操作,进一步加速DL推理。

  4. 增加了FP64数据类型操作, 相较于V100, FP64运算性能提升2.5倍。

  5. TF32, BF16, FP16, INT8, INT4均支持稀疏特性,运算吞吐能力可再获得2倍提升。

在这次的在线研讨会中,您可以获得以下的内容:

  1. 第三代Tensor Core介绍, Tensor Core作用与原理等

  2. 如何在现有的函数库与Kernel中使用Tensor Core

  3. 案例分析: 在GEMM中,Tensor Core的使用与分析

讲师介绍:

  • 姓名:刘冰

  • 职位:NVIDIA GPU 计算专家

  • 简介:拥有多年 GPU 开发经验和深度学习开发经验。曾参与计算机视觉、高性能计算库开发工作。目前主要负责 FasterTransformer 2.0 的进一步的优化及高性能函数开发工作。

现在限时免费报名,感兴趣的小伙伴千万不要错过了,赶紧点击『阅读原文或者扫描下方二维码报名吧!

如何利用 NVIDIA 安培架构 GPU 的新一代 Tensor Core 对计算进行极致加速_第1张图片

  

如何利用 NVIDIA 安培架构 GPU 的新一代 Tensor Core 对计算进行极致加速_第2张图片

戳原文,即报名!

你可能感兴趣的:(如何利用 NVIDIA 安培架构 GPU 的新一代 Tensor Core 对计算进行极致加速)