nvidia-smi面板参数如何看?

最近训练大模型经常监控卡的使用情况。常用到:

watch nvidia-smi

面板提供有关显卡硬件和驱动程序的信息,以及进行一些基本的管理和监控操作。

以下是面板中一些主要信息的解释:

GPU GPU的编号
Name GPU的型号
Fan 期望的风扇转速 以百分比形式显示,范围从0%到100%。实际的风扇转速可能会因风扇堵转或其他因素而低于这个值。
Temp GPU的当前温度 单位通常是摄氏度。
Perf GPU的性能状态 从P0到P12。P0表示最大性能状态,而P12表示最小性能状态。
Pwr GPU的当前能耗 通常以瓦特为单位
Persistence-M 持续模式 如果持续模式为“on”,则能耗会更大,但新的GPU应用启动时耗时会更短。如果为“off”,则表示持续模式已关闭。
Bus-Id GPU的总线信息 domain:bus:device.function(GPU 所在的 PCI 域:PCIe 总线编号:该总线上的设备编号:功能编号)
Disp.A GPU的显示是否已初始化(通常用于指示GPU是否正在驱动显示输出,例如连接到计算机的显示器。)
Memory Usage 显存使用率 当前显存的使用量和总显存大小。
Volatile GPU-Util GPU的实际利用率 通常以百分比表示。
Uncorr. ECC 错误检查与纠正状态 GPU是否启用了ECC功能,以及当前的ECC错误计数。(ECC通过在内存中增加额外的校验位来检测和纠正数据错误)
Compute M GPU的计算模式

DEFAULT:默认的计算模式,允许多个进程同时使用 GPU,但是可能会受到一定的性能限制。

EXCLUSIVE_PROCESS:一次只有一个进程可以使用 GPU,可以确保每个进程都能获得最大的性能。

PROHIBITED:GPU 的计算功能禁用,用于防止某些不需要计算的任务占用 GPU 资源。

你可能感兴趣的:(机器学习,数据挖掘,自然语言处理,知识图谱,gpt-3,文心一言,pytorch)