PyTorch 遇到的坑

pytorch踩过的坑:https://blog.csdn.net/LoseInVain/article/details/82916163

1.关于单机多卡的处理

torch.nn.DataParallel(model, deviceids, outputdevice, dim)
  • 关键的在于 model、device_ids 这两个参数。即所有的 tensor 必须要在同一个 GPU 上。这是网络运行的前提.
  • 一般来说有两种数据迁移的方法:
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
model = torch.nn.DataParallel(model,devices_ids=[0, 1, 2])
//此后需要将 tensor 也迁移到 GPU 上去。注意所有的 tensor 必须要在同一张 GPU 上面 即:
tensor1 = tensor1.to(device)
tensor2 = tensor2.to(device)
model = torch.nn.DataParallel(model, device_ids=[0, 1, 2])
tensor1 = tensor1.cuda(0)
tensor2 = tensor2.cuda(0)

2. 关于 DataParallel 的封装问题

  • 在 DataParallel 中,没有和 nn.Module 一样多的特性。但是有些时候我们可能需要使用到如 .fc 这样的性质(.fc 性质在 nn.Module 中有, 但是在 DataParallel 中没有)这个时候我们需要一个 .Module 属性来进行过渡。操作如下:
model = Model() # 这里实例化Model类得到一个model
model.fc # 这样做不会报错

# DataParallel情况下
parallel_model = torch.nn.DataParallel(model)
parallel_model.fc # 会报错。解决办法,很简单, 在fc前加一个.module即可
parall_model.module.fc # 不会报错

3. Pytorch 中的数据导入潜规则

  • 所有预训练模型都期望以相同的方式标准化输入图像,例如 mini-batches 中 3 通道的 RGB 图像维度写成:3 x H x W,其中 H 和 W 至少为 224。图像一般加载到 [0,1] 的范围内,然后使用平均值 [0.485,0.456,0.406],标准差[0.229,0.224,0.225] 进行归一化。
normalized = torchvision.transforms.Normalize(mean=(0.485, 0.456, 0.406),
std=(0.229, 0.224, 0.225))

4. 关于 CUDA 内存溢出的问题

  • 这个一般是因为 batch_size 设置的比较大。(8G 显存的话大概 batch_size < = 64 都 ok, 如果还是报错的话,就在对半分 64,32,16,8,4 等等)。而且这个和你的数据大小没什么太大的关系。因为我刚刚开始也是想可能是我训练集太大了,于是将数据集缩小了十倍,还是同样的报错。所以就想可能 batch_size 的问题。最后果然是 batchsize 的问题。

你可能感兴趣的:(PyTorch 遇到的坑)