YOLO训练模型提示“CUDA_ERROR_OUT_OF_MEMORY”

编译好yolov3进行测试时报错

CUDA Error: out of memory
darknet: ./src/cuda.c:36: check_error: Assertion `0' failed.

YOLO训练模型提示“CUDA_ERROR_OUT_OF_MEMORY”_第1张图片
解决办法:

1.CUDA Error: out of memory darknet: ./src/cuda.c:36: check_error: Assertio `0' failed.

 

需要修改所使用的模型cfg文件中的subdivision的参数。

由subdivisions=8改成subdivisions=64。

YOLO训练模型提示“CUDA_ERROR_OUT_OF_MEMORY”_第2张图片

subdivision:这个参数很有意思的,它会让你的每一个batch不是一下子都丢到网络里。而是分成subdivision对应数字的份数,一份一份的跑完后,在一起打包算作完成一次iteration。这样会降低对显存的占用情况。如果设置这个参数为1的话就是一次性把所有batch的图片都丢到网络里,如果为2的话就是一次丢一半。

http://blog.csdn.net/renhanchi/article/details/71077830?locationNum=11&fps=1

报错是因为其申请了太多的内存而内存不够

若上述方法不能解决:

一般在使用shh连接服务器的时候,用GPU训练模型,由于操作习惯问题。终直接在终端用ctrl+z终止训练,此时GPU资源可能未立即释放,
下次继续使用时有可能会报例如CUDA_ERROR_OUT_OF_MEMORY这种错误,就是提示显存不够。这时候需要人工来杀死占用GPU显存的进程。

这几天碰巧加载有一个较大的模型时,提示显存不足,特此解决:

这里就需要通过fuser 找到nivdia对应的程序进程,然后杀掉(fuser 显示使用指定文件或者文件系统的进程的PID。)。
第一步安装如下软件:

    在centos系统下,输入以下指令安装

     yum install psmisc
 

    然后,查看占用GPU资源的进程及ID

    fuser -v /dev/nvidia*
 

    找到仍然在占用GPU的进程PID

     kill -9 pid  # 表示强迫进程立即停止
     kill pid # 也可以终止进程
 
 

你可能感兴趣的:(YOLO训练模型提示“CUDA_ERROR_OUT_OF_MEMORY”)