Caffe训练深度学习网络的暂停与继续

方法1:临时暂停

暂停:

Ctrl+z

重新开始:

fg
回车

这种方法是用于临时暂停Caffe训练,暂停后可以以完全相同的配置从断点处继续训练。如果此时训练中记录了log文件,那么继续后,从log文件中完全看不出暂停的痕迹,是一份完整的记录。

但是,这样暂停后,仍然无法释放程序所占用的那一部分GPU,也就是说,无法暂停后训练另外的网络,或测试非常大的网络。且此时的终端不能关闭。

nvidia-smi

显示:

:~/Downloads/caffe-ssd$ nvidia-smi
Thu Dec 13 16:53:13 2018       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 390.77                 Driver Version: 390.77                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 1070    Off  | 00000000:01:00.0  On |                  N/A |
|  0%   45C    P2    33W / 166W |   5907MiB /  8116MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0      1179      G   /usr/lib/xorg/Xorg                            18MiB |
|    0      1219      G   /usr/bin/gnome-shell                          51MiB |
|    0      1481      G   /usr/lib/xorg/Xorg                           188MiB |
|    0      1678      G   /usr/bin/gnome-shell                         183MiB |
|    0      2070      G   ...quest-channel-token=4777665173046369714   111MiB |
|    0     30031      C   ./build/tools/caffe                         5341MiB |
+-----------------------------------------------------------------------------+

发现某个进程占很大显存

kill -9 30031

关闭占用显存的进程。

方法2:停止训练,下次训练从记录的参数开始

caffe命令行
-snapshot

ref
caffe命令行:
http://www.cnblogs.com/denny402/p/5076285.html

你可能感兴趣的:(caffe)