nvidia-smi 详解

文章目录

    • 系统信息
    • 输出详解
    • 命令使用
    • 如何判断异常
    • 附录

系统信息

$ cat /proc/driver/nvidia/version
NVRM version: NVIDIA UNIX x86_64 Kernel Module  460.32.03  Sun Dec 27 19:00:34 UTC 2020
GCC version:  gcc version 9.3.0 (Ubuntu 9.3.0-17ubuntu1~20.04)

输出详解

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 460.32.03    Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  GeForce RTX 3080    Off  | 00000000:01:00.0 Off |                  N/A |
| 76%   61C    P2   319W / 320W |   4551MiB / 10015MiB |    100%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|    0   N/A  N/A       958      G   /usr/lib/xorg/Xorg                 35MiB |
|    0   N/A  N/A      1651      G   /usr/lib/xorg/Xorg                 85MiB |
|    0   N/A  N/A      1784      G   /usr/bin/gnome-shell               12MiB |
|    0   N/A  N/A     27515      C   ./bminer                         4401MiB |
+-----------------------------------------------------------------------------+
  • Fan:N/A是风扇转速,从0到100%之间变动,这个速度是计算机期望的风扇转速,实际情况下如果风扇堵转,可能打不到显示的转速。有的设备不会返回转速,因为它不依赖风扇冷却而是通过其他外设保持低温(比如我们实验室的服务器是常年放在空调房间里的)。
  • Temp:温度,单位摄氏度。
  • Perf:性能状态,从P0到P12,P0表示最大性能,P12表示状态最小性能。
  • Pwr:能耗,上方的Persistence-M:是持续模式的状态,持续模式虽然耗能大,但是在新的GPU应用启动时,花费的时间更少,这里显示的是off的状态。
  • Bus-Id:GPU总线的东西,domaindevice.function
    Disp.A:Display Active,表示GPU的显示是否初始化。
    Memory Usage:显存使用率。 4551MiB / 10015MiB 表示总共是 10G 显存,使用了 4.5G
    GPU-Util:GPU利用率。
    ECC的东西。
    第八栏下方Compute M是计算模式。

命令使用

nvidia-smi stats -h
nvidia-smi dmon -h
nvidia-smi daemon -h
nvidia-smi replay -h
nvidia-smi pmon -h
nvidia-smi topo -h
nvidia-smi drain -h
nvidia-smi nvlink -h
nvidia-smi clocks -h
nvidia-smi encodersessions -h
nvidia-smi fbcsessions -h
nvidia-smi vgpu -h
nvidia-smi mig -h
nvidia-smi compute-policy -h
nvidia-smi boost-slider -h
nvidia-smi -h

如何判断异常

TODO

附录

补充知识

你可能感兴趣的:(深度学习,nvidia)