深度学习模型训练tips&典型报错解决方案(持续更新)

一、Pytorch页面文件太小,无法完成操作
1、可能是python安装根目录磁盘虚拟内存不足,应增大虚拟内存,虚拟内存默认为C盘的2GB。
2、可能是对应磁盘空间不足,需清理磁盘空间。
3、如使用win10系统,Datalodar可能出现问题,应尝试将num_workers设小一点,或直接置0。
4、可能是batch_size设置的太大,显存不够,应调小batch_size。
二、使用命令在终端中查看训练时GPU的使用情况(要先进入对应虚拟环境):

watch -n 10 nvidia-smi  #每10s刷新一次
nvidia -smi -l 2 #每2s刷新一次,按CTRL+C可中止

三、使用特定的GPU进行训练,在train.py的最上方,可插入以下代码:

import os
os.environ['CUDA_VISIBLE_DEVICES']='0,1' #此处输入想调用的GPU编号,若不进行设置,模型训练时将调用所有GPU资源

你可能感兴趣的:(深度学习相关,深度学习)