nvidia-smi输出内容释义及使用

nvidia-smi(NVIDIA System Management Interface) 是基于nvml的gpu的系统管理接口,主要用于显卡的管理和状态监控。

1.基础命令nvidia-smi

安装完成后在命令行或终端输入命令nvidia-smi,即可看到下面的信息(点击放大):
nvidia-smi输出内容释义及使用_第1张图片
包含了显卡的信号、温度、风扇、功率、显存、使用率、计算模式等信息。

部分指标说明如下1

Fan: 风扇转速(0%–100%),N/A表示没有风扇

Temp: GPU温度(GPU温度过高会导致GPU频率下降)

Perf: 性能状态,从P0(最大性能)到P12(最小性能)

Pwr: GPU功耗

Persistence-M: 持续模式的状态(持续模式耗能大,但在新的GPU应用启动时花费时间更少)

Bus-Id: GPU总线,domaindevice.function

Disp.A: Display Active,表示GPU的显示是否初始化

Memory-Usage:显存使用率

Volatile GPU-Util:GPU使用率

ECC: 是否开启错误检查和纠正技术,0/DISABLED, 1/ENABLED

Compute M.: 计算模式,0/DEFAULT,1/EXCLUSIVE_PROCESS,2/PROHIBITED

2.实用命令

#帮助
nvidia-smi -h

#持续监控gpu状态 (-lms 可实现毫秒级监控)
nvidia-smi -l 3   #每三秒刷新一次状态,持续监控

#列出所有GPU,大写L
nvidia-smi -L

#查询所有信息
nvidia-smi -q

#查询特定卡的信息,0.1.2.为GPU编号
nvidia-smi -i 0

#显示特定的信息  MEMORY, UTILIZATION, ECC, TEMPERA-TURE, POWER, CLOCK, COMPUTE, PIDS, PERFORMANCE, SUPPORTED_CLOCKS, #PAGE_RETIREMENT, ACCOUNTING 配合-q使用
nvidia-smi -q -d MEMORY

#监控线程
nvidia-smi pmon

#监控设备
nvidia-smi dmon

#此外还有一系列可以配置模式的属性,可以直接利用nvidia-smi配置
#详情:http://developer.download.nvidia.com/compute/DCGM/docs/nvidia-smi-367.38.pdf
#查询命令外的配置命令,请慎重使用!!!
#对于配置类命令,务必事先确认命令的含义!!!

ref:
命令参考:http://developer.download.nvidia.com/compute/DCGM/docs/nvidia-smi-367.38.pdf
https://blog.csdn.net/u011394059/article/details/74530243?locationNum=10&fps=1
https://blog.csdn.net/huangfei711/article/details/79230446

版权声明:本文为CSDN博主「hitrjj」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/u014636245/article/details/83933834


  1. 木十的博客 ↩︎

你可能感兴趣的:(深度学习,深度学习,tensorflow,pytorch)