TensorRT笔记(13)使用多实例GPU(MIG)

使用DLA

  • 12.使用多实例GPU(MIG)
    • 12.1 GPU分区
    • 12.2 对TensorRT应用程序的影响
    • 12.3 配置NVIDIA MIG

12.使用多实例GPU(MIG)

多实例GPU或MIG是NVIDIA Ampere GPU架构中的一项新功能,可将用户定向的单个GPU划分为多个较小的GPU。通过使裸机,GPU直通或多个vGPU上的并行计算工作负载有效共享GPU,可以提高GPU利用率。
物理分区为专用的计算和内存片提供QoS,并在部分GPU SM上独立执行并行工作负载。对于GPU SM或内存利用率较低的TensorRT应用程序,将GPU划分为较小的实例可以在不影响延迟的情况下产生更高的吞吐量,而对延迟的影响不大。最佳分区方案是特定于应用程序的。

从CUDA 11.0版本开始,NVIDIA GPU驱动程序中提供了MIG功能。有关更多信息,请参阅《 NVIDIA Multi-Instance GPU用户指南》。

12.1 GPU分区

NVIDIA Ampere GPU架构支持八个独立的GPU切片。可以组合多个GPU切片来创建GPU实例。每个切片是GPU内存和SM资源的一个分区;其他引擎(DMA,NVDEC等)继续被共享资源。
GPU切片是GPU内存和SM切片的组合。 NVIDIA Amp

你可能感兴趣的:(TensorRT-部署-加速)