近年来,随着人工智能技术的发展,特别是深度学习模型的广泛应用,GPU(图形处理单元)作为加速计算的重要硬件,在AI领域扮演着越来越重要的角色。AI推理是指已经训练好的模型对新数据进行预测的过程。与训练阶段相比,推理通常对GPU的要求有所不同,更注重于能效比、延迟以及并发处理能力。本文将从这些角度出发,对比分析NVIDIA 的 L40s、A10、A40、A100、A6000 五款GPU在AI推理任务中的表现。
正如我们在开篇所讲的,推理任务对 GPU 的要求与模型训练不同,所以在了解如何为推理任务挑选 GPU 之前,我们需要了解推理任务对 GPU 的性能提出了哪些要求。它们主要是:
另一方面,显存对于 AI 推理任务来讲是一个直观重要的指标。大显存对于推理任务的意义在于:
1. 模型加载能力
2. 数据处理能力
3. 支持并行计算
4. 提高计算效率
5. 处理复杂任务
当然,并不是所有的模型都需要大显存,你需要合理地预估模型所需的显存。目前业界也有一些用于预估模型显存需求的工具,例如 HuggingFace 官方库 Accelerate 推出的 Model Memory Calculator,它是一个在线估算工具,能够直接为用户预估在 HuggingFace 平台上托管的模型的显存需求。用户只需输入 HuggingFace 平台上的模型链接,工具便能够迅速计算出该模型在运行过程中所需的显存大小,包括进行推理操作以及采用Adam算法进行训练时的显存需求。
目前行业里最热门的 GPU 要数 H100,它采用了Hopper架构,从指标层面也与旧一代 GPU 有明显提升。 H100 性能如此之高,使得它更适合去运行模型训练这种更吃性能的任务。在市面上还有很多仍未停产的GPU,包括NVIDIA的L40s、A10、A40、A100、A6000。
为了更好地理解各款GPU之间的差异,我们首先列出它们的基本规格:
GPU型号 | L40s | A10 | A40 | A6000 | A100 |
发布时间 | 2022年10月 | 2021年4月 | 2020年10月 | 2020年10月 | 2020年5月 |
架构 | Ada Lovelace | Ampere | Ampere | Ampere | Ampere |
CUDA核心数 | 18176 | 9216 | 10752 | 10752 | 6912 |
FP32浮点性能 | 91.6 TFLOPS | 31 TFLOPS | 37.4 TFLOPS | 38.7 TFLOPS | 19.5 TFLOPS |
FP16浮点性能 | 733 TFLOPS | 125 TFLOPS | 74.8 TFLOPS | 77.4 TFLOPS | 312 TFLOPS |
INT8浮点性能 | 1,466 TOPS | 250 TOPS | 299.3 TOPS | 309.7 TOPS | 624 TOPS |
显存大小 | 48GB | 24GB | 48GB | 48GB | 40GB or 80G |
显存带宽 | 846 GB/s | 600 GB/s | 696 GB/s | 768 GB/s | 600 GB/s |
TDP (W) | 300W | 150W | 300W | 300W | 400W |
Volta 架构(2017):代表性产品V100
Ampere架构 (2020):代表性产品A100
Ada Lovelace架构 (2022)::代表性产品L40s
Hopper架构 (2022):代表性产品H100
Blackwell架构(2024):代表性产品B200
目前企业的一般选择是,最先进最新型号的GPU显卡,会用于训练。上一代或更久远的GPU显卡用于推理。表格中列出的显卡,是目前会用于推理的显卡。推理一般会关注FP32、FP16 和 INT8 浮点性能参数差异和显存。这些差异影响模型的准确性、速度和资源使用。以下是对每种浮点精度的详细比较及其在推理中的适用性:
1. FP32 (单精度浮点)
2. FP16 (半精度浮点)
3. INT8 (整数)
在选择用于推理的浮点精度时,需根据具体应用需求、模型特性和可接受的精度损失进行权衡。
L40s是NVIDIA最新推出的GPU,专为生成式人工智能模型的训练和推理设计。它基于Ada Lovelace架构,配备了48GB的GDDR6显存和846GB/s的带宽。在第四代Tensor核心和FP8 Transformer引擎的加持下,L40s提供了超过1.45 PFLOPS的张量处理能力。对于AI推理任务,L40s的高计算能力和大显存容量使其能够轻松应对大规模数据集的处理需求。此外,L40s在功耗和性价比方面也表现出色,有助于降低数据中心的运营成本。
A10是NVIDIA基于Ampere架构构建的一款GPU,专为图形和视频应用以及AI服务而设计。它结合了第二代RT Core、第三代Tensor Core和新型流式传输微处理器,并配备了24GB的GDDR6显存。虽然A10在显存容量上略逊于L40s,但其强大的计算能力和高效的内存管理使其在AI推理任务中仍具有不俗的表现。A10还支持PCI Express 4.0接口,提供了更高的数据传输速度,有助于加速AI推理任务的执行。
A40是NVIDIA的一款中端数据中心GPU。它拥有与A100相同的CUDA核心数和内存容量,但频率较低。A40支持半精度(FP16)和单精度(FP32)计算,适用于各种AI和HPC应用。在AI推理任务中,A40凭借其稳定的性能和适中的价格成为许多企业的首选。然而,与L40s相比,A40在计算能力和显存容量上存在一定差距。
A100是一款基于NVIDIA Ampere架构的高端GPU,专为深度学习、AI推理等计算密集型任务而设计。它以其卓越的FP16和INT8低精度浮点性能著称,分别达到了312 TFLOPS和624 TOPS,这些性能在加速AI推理过程中尤为关键。同时,A100提供了高达40GB或80GB的显存选项,以及600 GB/s的显存带宽,确保了处理大规模数据集和复杂模型时的数据传输效率。尽管其FP32浮点性能(19.5 TFLOPS)相对较低,但A100通过其架构优化和强大的低精度计算能力,在AI推理方面可以提供不错的性能。
A6000是NVIDIA为工作站市场推出的一款高端GPU。它提供了高性能的即时光线追踪、AI加速计算和专业图形渲染能力。A6000配备了48GB的GDDR6显存和高达768GB/s的内存带宽,为AI推理任务提供了充足的计算资源和数据存储空间。此外,A6000还支持PCI Express 4.0接口和NVLink技术,可实现高速GPU间通信和数据传输。然而,与专为AI推理设计的L40s相比,A6000在特定场景下的性能可能略逊一筹。
选择显卡用于推理时,并不是参数越高越好,因为可能会性能溢出,造成不必要的浪费。同时,价格也是重要因素。并不是越先进的显卡价格越高。目前市场上显卡的定价与其库存密切相关。所以不同厂商对不同显卡的报价往往不一样。综合来看,如果主要关注高吞吐量和灵活性,A6000和A40将是较好的选择;而对于那些更加重视能效比的应用场景,A6000则可能更为合适。A10虽然在某些方面不如其他三款GPU,但在一些不需要极致性能的场合下也能提供良好的性价比。另外,如果仅看性能,A10、A40、A6000 的性能差异不太大,可以互相作为平替备选。不同云厂商之间会有意的避免提供相同卡型和配置的GPU云主机,以此避免恶性价格战。FP32、FP16 和 INT8 浮点性能参数差异某些应用场景可以向成本妥协,但是显存大小无法妥协。在目前常见的文生图、视频识别等应用场景,显存会成为制约推理效率的重要一环。在这种场景下,A10显著差于A40和A6000。
用户在选择时,应当依据特定的应用需求、预算,结合测试结果和报价,以及现有的基础设施,来进行最终决策。
A40,海外GPU基本不供货。A100在这些显卡中发行时间最早,浮点性能不算最好的。一般情况下,海外推理显卡一般在A10、A6000、L40s中进行选择。
三者价格排序为:A40