GPU架构的更新主要体现在SM、TPC的增加,最终体现在GPU浮点计算能力的提升。
Kepler架构: FP64单元和FP32单元的比例是1:3或者1:24;GPU型号K80。
Maxwell架构: FP64单元和FP32单元的比例下降到了只有1:32;GPU型号M10/M40。
Pascal架构: 这个比例又提高到了1:2(P100)但低端型号里仍然保持为1:32,型号Tesla P40、GTX 1080TI/Titan XP、Quadro GP100/P6000/P5000
Votal架构: FP64单元和FP32单元的比例是1:2;型号有Tesla V100、GeForceTiTan V、Quadro GV100专业卡。
Turing架构: 一个SM中拥有64个半精度,64个单精度,8个Tensor core,1个RT core。
Ampere架构: 该架构作为一次设计突破,在8代GPU架构中提供了NVIDIA公司迄今为止最大的性能飞跃,统一了AI培训和推理,并将性能提高了20倍。A100是通用的工作负载加速器,还用于数据分析,科学计算和云图形。
Hopper架构: NVIDIA Hopper架构是NVIDIA在2022 年3月推出的GPU 架构。 这一全新架构以美国计算机领域的先驱科学家 Grace Hopper 的名字命名,将取代两年前推出的 NVIDIA Ampere 架构。
英伟达GPU 用到的 SIMT 基本编程模型都是一致的,每一代相对前代基本都会在 SM 数量、SM 内部各个处理单元的流水线结构等等方面有一些升级和改动。
Fermi架构白皮书:https://www.nvidia.com/content/PDF/fermi_white_papers/NVIDIA_Fermi_Compute_Architecture_Whitepaper.pdf
计算能力适用范围(Compute Capability):2.0,2.1
计算能力是向前兼容的
每个SM 中包含:
Kepler架构白皮书: https://www.nvidia.com/content/PDF/kepler/NVIDIA-kepler-GK110-architecture-whitepaper.pdf
计算能力适用范围(Compute Capability):3.0,3.2,3.5, 3.7
每个 SM(这里叫 SMX 了)中包含:
Kepler架构在硬件上直接有双精运算单元的架构,所以对比前后几代的双精浮点的性能话会发现 Kepler 要高出一截。
Maxwell架构白皮书: https://developer.nvidia.com/maxwell-compute-architecture
计算能力适用范围(Compute Capability):5.0,5.2, 5.3;
Maxwell的 SM 开始做减法了,每个 SM(SMM)中包含:
这些硬件单元的流水线分布也不再是像 Kepler 那样大锅炖了,而是有点像是把 4 个差不多像是 Fermi 的 SM 拼在一起组成一个 SM:
每个 Process Block 中包含的内容也更加的多,每个Process Block里面包含了:
Pascal白皮书: https://images.nvidia.com/content/volta-architecture/pdf/volta-architecture-whitepaper.pdf
计算能力适用范围(Compute Capability):6.0,6.1, 6.2
SM 内部作了进一步的精简,整体思路是 SM 内部包含的东西越来越少,但是总体的片上 SM 数量每一代都在不断增加,每个 SM 中包含:
一个 SM 里面包含的 Process Block 数量减少到了 2 个,每个 Process Block 内部的结构倒是 Maxwell 差不多:
此外还有一些其它的升级变化:
Volta白皮书: https://images.nvidia.com/content/volta-architecture/pdf/volta-architecture-whitepaper.pdf
计算能力适用范围(Compute Capability):7.0, 7.2
SM 中包含:
与 Pascal 相比,单个 SM 中的单精运算单元数量是一致的,相当于把 Pascal 中的每个 Process Block 进一步地又拆成了 2 个,每个 Process Block 中包含:
这里把原本的 CUDA Core 给拆开了,FP32 和 INT32 的两组运算单元现在是独立出现在流水线 lane 里面了,这一设计的好处是在前几代架构中 CUDA Core 同时只能处理一种类型的运算,而现在每个 cycle 都可以同时有 FP32 和 INT32 的指令在一起跑了。Pascal 中需要 6 个 cycles 来做一组 FMA,现在在 Volta 中只需要 4 个 cycles。
另外每个 Warp Scheduler 还有了自己的 L0 指令 cache。这一代还改进了一下MPS,现在从硬件上直接支持对资源的隔离,方便多任务共享 GPU。
最重大的改进在于Tensor Core !
https://zhuanlan.zhihu.com/p/75753718
针对于Tensor Core的介绍这篇文章介绍的很详细。
计算能力适用范围(Compute Capability):7.5
Turing架构白皮书: https://www.nvidia.com/content/dam/en-zz/Solutions/design-visualization/technologies/turing-architecture/NVIDIA-Turing-Architecture-Whitepaper.pdf
每个GPC均包含一个专用的光栅化引擎和6个TPC,且每个TPC均包含两个SM。每个SM包含:
可根据计算或图形工作负载将这些内存设置为不同容量。每个SM中的全新RT核心处理引擎负责执行光线追踪加速。
Turing架构采用全新SM设计,每个TPC均包含两个SM,每个SM共有64个FP32核心和64个INT32核心。Turing SM支持并行执行FP32与INT32运算,每个Turing SM还拥有8个混合精度Turing Tensor核心和1个RT核心。
Ampere架构白皮书: https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/nvidia-ampere-architecture-whitepaper.pdf
计算能力适用范围(Compute Capability):8.0
NVIDIA Ampere GA100 GPU架构满配如下:
NVIDIA A100在AI训练(半/单精度操作,FP16/32)和推理(8位整数操作,INT8)方面,GPU比Volta GPU强大20倍。在高性能计算(双精度运算,FP64)方面,NVIDIA表示GPU的速度将提高2.5倍。
五大突破:
NVIDIA A100基于7nm Ampere GA100 GPU,具有6912 CUDA内核和432 Tensor Core,540亿个晶体管数,108个流式多处理器。采用第三代NVLINK,GPU和服务器双向带宽为4.8 TB/s,GPU间的互连速度为600 GB/s。另外,Tesla A100在5120条内存总线上的HBM2内存可达40GB。
Hopper架构白皮书
计算能力适用范围(Compute Capability):9.0
英伟达在2022年3月下旬发布了采用全新Hopper架构的H100,拥有NVIDIA当前最强的GPU规格。英伟达H100核心架构与上一代Ampere相似,数学运算部分布置在144组CUDA上,最高可拥有18432个FP32(单精度)、9216个FP64(双精度)CUDA核心,辅以576个第四代Tensor核心。
NVIDIA在2022年5月初曝光的白皮书,让外界对Hopper架构有进一步了解。H100核心采用台积电的N4工艺制造,内建800亿个晶体管,核心面积仅有814m㎡。作为对比,上代的A100核心采用台积电7nm工艺制造,在826m㎡的核心内建542亿个晶体管。
作为面向专业计算的GPU,H100采用HBM3高带宽显存,NVIDIA将六颗HBM3高带宽显存堆栈在核心两侧。核心内建5120-bit的HBM3显存位宽,英伟达可配置最高80GB显存,SXM5版(HBM3显存)带宽更是达到3TB/s,PCIe版本(HBM2e)则是2TB/s。
H100的主机接口同样迎来升级,SXM外形的PCB板配备新一代NVLink,拥有900GB/s的带宽。面对AIC插卡版本采用PCIe 5.0 x16(拥有128GB/s)接口,两者均引入了资源池(resource-pooling)功能,加速GPU之间的数据交换。
虽然H100拥有144组单元,但SXM版也只启用其中的132组单元。PCIe版本更是只有114组,两者的最高频率均为1.8GHz。不仅如此,H100核心的功率高达700W,PCIe版本也达到350W,上一代的A100仅为400W;在提升性能的同时,H100的功耗也在大幅上升。