如何监控和改进用于深度学习的 GPU 使用率?

如果您刚刚为您的下一个很棒的深度学习项目购买了一些漂亮的闪亮 GPU,并且已经开始工作。您可以听到风扇呼呼的声音(或者您可以想象它们在云中某处呼呼),但您如何确保充分利用这些 GPU?

下面我们将介绍一些可用于监控 GPU 的工具。检查它们的利用率、温度和内存使用情况。我们将介绍如何安装它们,它们最擅长什么,以及如何使用它们的一些技巧。通过确保充分利用 GPU,您至少可以确保它们尽可能快地运行现有模型(更改模型以使其尽可能高效是另一个话题)。

内容

先决条件
英伟达-smi
gpustat
nvtop
nvitop
jupyterlab-nvdashboard
其他

先决条件

至少配备一个 NVIDIA GPU 的计算机
Ubuntu 操作系统 20.04 LTS、18.04 LTS 或 16.04 LTS
与您的 GPU 类型和所需 CUDA 版本相匹配的NVIDIA 驱动程序。您可以使用Stack为 CUDA、cuDNN、NVIDIA 驱动程序以及 PyTorch 和 TensorFlow 等框架进行无忧的单行安装。

英伟达-smi

如果您正在进行深度学习,那么您使用的很有可能是 NVIDIA GPU,那么最熟悉的 GPU 监控工具就是老式的 nvidia-smi(NVIDIA 系统管理界面)。此命令行实用工具随 NVIDIA 驱动程序一起安装,可能是大多数用户熟悉的监控工具。

安装

nvidia-smi 通常在 NVIDIA 驱动程序安装期间安装,尽管它是一个单独的包。

用法

使用 nvidia-smi 就像在终端提示符下键入一样简单nvidia-smi,您应该会看到类似以下的输出:
如何监控和改进用于深度学习的 GPU 使用率?_第1张图片
默认输出一目了然地提供了有用的 GPU 状态摘要。这对于快速了解正在发生的事情非常有用,但您可以使用 nvidia-smi 做更多事情。

随着时间的推移,想要密切关注您的 GPU 利用率是很常见的。nvidia-smi 可以选择-l在给定的

你可能感兴趣的:(深度学习,人工智能,机器学习)