RuntimeError: Attempting to deserialize object on CUDA device 2 but torch.cuda.device_count() is 1
model = torch.load(model_path)
model = torch.load(model_path, map_location='cuda:0')
map_location
改为:map_location={'cuda:1': 'cuda:0'}
PyTorch多GPU的处理机制
使用多GPU时,应该记住pytorch的处理逻辑是:
1.在各个GPU上初始化模型。
2.前向传播时,把batch分配到各个GPU上进行计算。
3.得到的输出在主GPU上进行汇总,计算loss并反向传播,更新主GPU上的权值。
4.把主GPU上的模型复制到其它GPU上。
model = model.cuda()
model.cuda()
上面两句能够达到一样的效果,即对model自身进行内存迁移。
- 对于Tensor:
和nn.Module不同,调用tensor.cuda()只是返回这个tensor对象在GPU内存上的拷贝,而不会对自身进行改变。因此必须对tensor进行重新赋值,即tensor=tensor.cuda().
RuntimeError: Attempting to deserialize object on a CUDA device but torch.cuda.is_available() is Fal
展开
遇到一个错误:
RuntimeError: Attempting to deserialize object on a CUDA device but torch.cuda.is_available() is False. If you are running on a CPU-only machine, please use torch.load with map_location='cpu' to map your storages to the CPU.
出错语句:
torch.load(model_file)
改为:
model = torch.load(model_path, map_location='cpu')
多个GPU训练的,参考:
<https://blog.csdn.net/iamjingong/article/details/85308600>
torch.cuda.is_available()返回false的解决办法
展开
在使用pytorch的时候,有时会遇到torch.cuda.is_available()返回false的问题,一般出现这个的原因是因为驱动没有安装好的缘故。解决的方案是:
1、安装nvidia相应的驱动版本和对应的cuda和cudnn。
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update
sudo apt install nvidia-396
#开发使用
sudo apt install nvidia-396-dev
有时会碰到nvidia-396找不到的情况,使用
sudo apt search nvidia
后发现库中没有nvidia-396的版本,这时可以安装nvidia-384的版本
sudo apt install nvidia-384
但是该版本似乎不支持cuda9.1,如果碰到与cuda版本不支持的问题,建议可以直接去nvidia官方网站下载驱动进行安装。
https://www.nvidia.cn/Download/index.aspx?lang=cn
cuda和cudnn可以直接使用conda进行安装, 如果遇到问题,可以查阅相关的文档,这里就不赘述了。
conda install cudatoolkit
2、安装nvidia-cuda-toolkit方便使用nvcc
sudo apt-get install nvidia-cuda-toolkit
如果碰到nvcc -V 显示的版本与系统实际安装的版本不同的问题,可以参见
https://zhuanlan.zhihu.com/p/48641682
一般进行驱动的正确安装后,就可以使用gpu进行计算了。
将gpu改为cpu时,遇到一个报错:
RuntimeError: Attempting to deserialize object on a CUDA device but torch.cuda.is_available() is False. If you are running on a CPU-only machine, please use torch.load with map_location='cpu' to map your storages to the CPU.
此时改为:
torch.load("0.9472_0048.weights",map_location='cpu')
就可以解决问题了。
方便查阅,整理:
假设我们只保存了模型的参数(model.state_dict())到文件名为modelparameters.pth, model = Net()
1. cpu -> cpu或者gpu -> gpu:
checkpoint = torch.load('modelparameters.pth') model.load_state_dict(checkpoint)
2. cpu -> gpu 1
torch.load('modelparameters.pth', map_location=lambda storage, loc: storage.cuda(1))
3. gpu 1 -> gpu 0
torch.load('modelparameters.pth', map_location={'cuda:1':'cuda:0'})
4. gpu -> cpu
torch.load('modelparameters.pth', map_location=lambda storage, loc: storage)
RuntimeError: Attempting to deserialize object on CUDA device 2 but torch.cuda.device_count() is 1
model = torch.load(model_path)
model = torch.load(model_path, map_location='cuda:0')
map_location
改为:map_location={'cuda:1': 'cuda:0'}
PyTorch多GPU的处理机制
使用多GPU时,应该记住pytorch的处理逻辑是:
1.在各个GPU上初始化模型。
2.前向传播时,把batch分配到各个GPU上进行计算。
3.得到的输出在主GPU上进行汇总,计算loss并反向传播,更新主GPU上的权值。
4.把主GPU上的模型复制到其它GPU上。
model = model.cuda()
model.cuda()
上面两句能够达到一样的效果,即对model自身进行内存迁移。
- 对于Tensor:
和nn.Module不同,调用tensor.cuda()只是返回这个tensor对象在GPU内存上的拷贝,而不会对自身进行改变。因此必须对tensor进行重新赋值,即tensor=tensor.cuda().