多卡训练意外崩溃 显存占满竟未释放

paddleocr 多卡训练无故停止

查看nividia-smi 发现 卡0 显存还是8000多M 没有释放掉 下面进程也没显示出来是哪个进程占了那么多资源 

估计跟下述原理差不多

(查不到的话 用sudo哈)

fuser -v /dev/nvidia*   

查看进程

pmap -d PID

杀进程

kill -9 PID

你可能感兴趣的:(多卡训练意外崩溃 显存占满竟未释放)