autodl实践经验------3

简单记录一下遇到的新问题:

显存跑炸了。

但是我发现两个问题:

1、要为解冻阶段留裕量,我前面只考虑了冻结阶段的batch_size在显存允许的情况下尽可能大,然后一进入解冻阶段,显存就炸了。

所以我换成了batch_size:32、16,num_workers:8。后面看看解冻阶段会不会炸。

2、我发现系统盘内存差点不够,因为我yolov3项目输出位置在系统盘,我不太好改输出位置,所以我直接改了存储周期,我每10个epoch存一个权值文件,应该够。

3、考虑到调整参数对训练速度影响很小,所以考虑减少数据集至5万张,并且下次多模型共同训练,但一定要考虑解冻阶段显存够不够,应该最多同时训练两个模型。

4、用python train.py && shutdown或者干脆不用shutdown,我用了一次python train.py; shutdown,结果出错了连自己报错都看不到。之前用python train.py && shutdown是看到是因为自己显存炸了,就可以调试。宁可多花点钱,也别花冤枉钱。我怀疑是因为我10个epoch保存一次,算训练完一次,它可能就判断我python train.py运行的结束就给关机了。

5、只有跟你的实例一样的区并且一样配置的GPU空闲才能开机。我现在看着有3核、8核的都有空闲但是开不了机,所以还是得把所有东西放系统盘然后保存镜像迁移。

6、不知道为什么,换了个8核的titanxp明显快了很多,以后一定弄个核多的,可以省很多钱!

7、目前我冻结模式用了4094MiB显存,大概30分钟一个epoch,现在解冻模式大概35分钟一个epoch,然后显存用了9576MiB,足足两倍!

8、不知道是不是bug,我在一个终端连续ctrl+z然后重新训练,显存会飙升

你可能感兴趣的:(深度学习)