透过GTC2022看Hopper H100的进化和NVIDIA的雄心

NVIDIA CEO黄仁勋先生的GTC 2022主题演讲视频


透过GTC2022看Hopper H100的进化和NVIDIA的雄心_第1张图片

最近国内的GPU/NPU新闻比较多,每家公司都在对标NVIDIA的某个型号,看多了这类信息,让人不免产生即将赶上甚至于超越的幻觉。所以想通过GTC2022的演讲,和大家分享一下NVIDIA拥有的“全栈技术能力”。

计算硬件的超级进化

  1. 新一代GPU架构Hopper架构,在过去的数年里NVIDIA其他架构依次有Pascal、Volta、Ampere。也可以看出,每次架构的迭代周期一般是2年左右,实际上x86,arm这种CPU的架构迭代速度也大概是2年。计算硬件架构的升级迭代在某些方面带来了成倍的性能提升,例如:Hopper DPX指令集在Dynamic Programing方面带来了40X的速度提升;NVIDIA在Hopper架构中引入新一代流式多处理器的FP8张量核心(Tensor Core),用来加速AI训练和推理;Hopper Transformer引擎能更好实现动态混合精度的处理(Dynamic Mixed-Precision Processing);Hopper中引入了新的线程块集群机制,可实现跨单元进行协同计算。H100中的线程块集群可在同一GPC内的大量并发运行,对较大的模型具有更好的加速能力。

  2. 此时老黄掏出了采用Hopper架构的H100,号称有史以来最大的代际飞跃,性能碾压老前辈A100!集成了800亿个晶体管(没概念吗?苹果M1 MAX 570亿个晶体管)。note: 这可不是给游戏玩家用的,这是给高性能云计算用的。

    透过GTC2022看Hopper H100的进化和NVIDIA的雄心_第2张图片

  3. Grace-Hopper单一超级芯片组 

    透过GTC2022看Hopper H100的进化和NVIDIA的雄心_第3张图片

    Grace CPU(左一)是NVIDIA去年发布的,合共144个Arm v9架构(Neoverse N2)CPU内核,缓存容量为396MB。Grace-Hopper将Grace CPU和Hopper H100通过NVLink直接进行芯片互连,速度达到900GB/s(注:Apple的M1 Ultra 是将两颗M1 Max互连)。

  4. 为了展示NVLink的超级性能,黄教主给出了如下各种情况。国内也经常说chiplet超级晶粒封装,然而芯片之间的高速互联技术并不是“简单的胶水”!

    透过GTC2022看Hopper H100的进化和NVIDIA的雄心_第4张图片

  5. DGX H100是一台借助NVLink连接,由八块H100组成的一个巨型GPU。

    透过GTC2022看Hopper H100的进化和NVIDIA的雄心_第5张图片

    透过GTC2022看Hopper H100的进化和NVIDIA的雄心_第6张图片

    DGX POD组成的 1 EFLOPS巨兽

  6. 透过GTC2022看Hopper H100的进化和NVIDIA的雄心_第7张图片

  7. NVIDIA EOS,这是英伟达正在构建的地球上性能最强的AI超级计算机。

    透过GTC2022看Hopper H100的进化和NVIDIA的雄心_第8张图片

透过GTC2022看Hopper H100的进化和NVIDIA的雄心_第9张图片

软件与生态雄心

透过GTC2022看Hopper H100的进化和NVIDIA的雄心_第10张图片

如今的NVIDIA似乎确实进化成一家由软件驱动的硬件公司了。如下摘录了几句黄教主的名言:

“具备CUDA库的NVIDIA SDK是加速计算的核心和灵魂”

“NVIDIA SDK将我们与科学领域的新挑战和业界新机遇紧密相连”

NVIDIA SDK不完全统计如下:

名称 简要

NVIDIA 

Aerial

NVIDIA Aerial SDK Build and Deploy GPU-Accelerated 5G Virtual Radio Access Networks (vRAN) NVIDIA Aerial™ is an application framework for building high-performance。

NVIDIA 

cuOpt

AI-Accelerated solvers for route optimization。能够优化多代理、多约束的路线规划。

NVIDIA 

cuQuantum

一个在GPU加速系统上模拟量子电路的开发平台。

NVIDIA 

Modulus

用于开发Physics-ML模型的AI框架。

NVIDIA 

MONAI

与伦敦国王学院(King’s College London)合作,面向医疗研究领域的AI框架。
FLARE 用于联邦学习的AI SDK。
MORPHEUS NVIDIA Morpheus用于网络安全的整套能够实时检测和预防安全威胁的加速AI技术。
RIVA 2.0 SDK for speech AI
MAXINE SDK for AI Video conferencing
MERLIN AI Framework for Hyperfscale recommender system。
Memo Megatron AI Framwork for training large language models
TRITON Open-Source Hyperscale Inference Server
... ...
  • NVIDIA对应用场景的理解深度以及技术布局的前瞻性

  • 在这个维度上我们的认知差距有多远?

  • 用户难道会使用着NVIDIA SDK,而去购买另外一家公司的的GPU卡吗?

透过GTC2022看Hopper H100的进化和NVIDIA的雄心_第11张图片

透过GTC2022看Hopper H100的进化和NVIDIA的雄心_第12张图片

透过GTC2022看Hopper H100的进化和NVIDIA的雄心_第13张图片

透过GTC2022看Hopper H100的进化和NVIDIA的雄心_第14张图片

元宇宙的基建霸主?

透过GTC2022看Hopper H100的进化和NVIDIA的雄心_第15张图片

透过GTC2022看Hopper H100的进化和NVIDIA的雄心_第16张图片

透过GTC2022看Hopper H100的进化和NVIDIA的雄心_第17张图片

谁定义元宇宙世界的接口?

谁将是元宇宙基建的巨头?

结束语

对于高性能计算行业,我们有许多疑问:

  1. 技术层面,我们是否仍停留在谈制程、谈封装、谈面积,谈硬件对标x?

  2. 商业实践,我们是否仍停留在只是个买芯片/板卡/服务器的传统认知?

  3. 生态层面,我们是否仍停留在兼容CUDA,然后以为其他逻辑自然通?

  4. 竞争层面,我们是否仍停留在只是高举国产自主可控旗帜?

你可能感兴趣的:(HPC,高性能计算,服务器,人工智能,深度学习)