编译好yolov3进行测试时报错
CUDA Error: out of memory
darknet: ./src/cuda.c:36: check_error: Assertion `0' failed.
1.CUDA Error: out of memory darknet: ./src/cuda.c:36: check_error: Assertio `0' failed.
需要修改所使用的模型cfg文件中的subdivision的参数。
由subdivisions=8改成subdivisions=64。
subdivision:这个参数很有意思的,它会让你的每一个batch不是一下子都丢到网络里。而是分成subdivision对应数字的份数,一份一份的跑完后,在一起打包算作完成一次iteration。这样会降低对显存的占用情况。如果设置这个参数为1的话就是一次性把所有batch的图片都丢到网络里,如果为2的话就是一次丢一半。
http://blog.csdn.net/renhanchi/article/details/71077830?locationNum=11&fps=1
报错是因为其申请了太多的内存而内存不够
若上述方法不能解决:
一般在使用shh连接服务器的时候,用GPU训练模型,由于操作习惯问题。终直接在终端用ctrl+z终止训练,此时GPU资源可能未立即释放,
下次继续使用时有可能会报例如CUDA_ERROR_OUT_OF_MEMORY这种错误,就是提示显存不够。这时候需要人工来杀死占用GPU显存的进程。
这几天碰巧加载有一个较大的模型时,提示显存不足,特此解决:
这里就需要通过fuser 找到nivdia对应的程序进程,然后杀掉(fuser 显示使用指定文件或者文件系统的进程的PID。)。
第一步安装如下软件:
在centos系统下,输入以下指令安装
yum install psmisc
然后,查看占用GPU资源的进程及ID
fuser -v /dev/nvidia*
找到仍然在占用GPU的进程PID
kill -9 pid # 表示强迫进程立即停止
kill pid # 也可以终止进程