利用nvidia-smi命令查看tensorflow-gpu的运行情况

目的:用GPU跑通Mask RCNN项目源码

使用搭配:win10 + CUDA 10.0 + cudnn 7.6 +tensorflow-gpu 1.14+NVIDIA显卡Geforce MX350

其他必备包:numpy 1.19.5、scipy 1.5.4、Pillow 8.3.1、cython 0.29.24、matplotlib 3.3.4、scikit-image 0.17.2、keras 2.0.8、opencv-python 4.5.3.56、h5py 2.10.0、imgaug 0.4.0、IPython[all] 7.16.1

运行情况:代码可以正常跑起来,但是会卡在Epoch 1/30不动,之前我用cpu跑,也是卡在这里。于是我初步判断,tensorflow-gpu没有调用GPU。

排查方法:运行程序的同时,在Anaconda prompt里运行nvidia-smi命令来查看GPU的状况,发现GPU已经被调用了,只不过显存太小,所以速度依旧很慢。

nvidia-smi命令的使用方法见如下链接:https://www.jianshu.com/p/ceb3c020e06b
利用nvidia-smi命令查看tensorflow-gpu的运行情况_第1张图片
GPU:本机中的GPU编号。一般从0开始编号

Fan:风扇转速(0%-100%),N/A表示没有风扇

Name:GPU类型,我的是:Geforce MX350

Temp:GPU的温度

Perf:GPU的性能状态,P0-P12表示最大到最小性能,我这里是P0

TCC/WDDM:NVIDIA 高性能 GPU(如Tesla, Quadro)可以配置为 TCC(Tesla Compute Cluster)模式或 WDDM(Windows Display Driver Model)模式。二者区别在于,TCC 模式下,GPU完全用于计算,并不需要本地显示功能;而 WDDM 模式下,GPU 同时扮演计算卡 + 显卡的角色

Pwr:Usager/Cap:能耗表示,Usage:用了多少,Cap总共多少

Bus-Id:GPU总线相关显示,domain:bus:device.function

Disp.A:Display Active ,表示GPU的显示是否初始化

Memory-Usage:显存使用率

Volatile GPU-Util:GPU使用率

Uncorr. ECC:关于ECC的东西,是否开启错误检查和纠正技术,0/disabled,1/enabled

Compute M:计算模式,0/DEFAULT,1/EXCLUSIVE_PROCESS,2/PROHIBITED

Processes:显示每个进程占用的显存使用率、进程号、占用的哪个GPU

你可能感兴趣的:(tensorflow,深度学习)