仔细看错误信息,CUDA和CPU,输入数据x和模型中的权重值类型不一样,一般来说是因为模型的参数不在GPU中,而输入数据在GPU中,通过添加model.cuda()
将模型转移到GPU上以解决这个问题。
根据错误信息,显然Input类型和模型的权重类型不一致,一个为Double一个为float,通过对输入数据Tensor(x)进行x.float()
将输入数据和模型权重类型一致,或者将模型权重的类型转化为Double也可以解决问题。
很明显,size不匹配,原因有很多,请检查卷积核的尺寸和输入尺寸是否匹配,padding数是否正确。
期望得到CPU类型张量,得到的却是CUDA张量类型。
很典型的错误,例如计算图中有的参数为cuda型有的参数却是cpu型就会遇到这样的错误。
>>> import torch >>> from torch.autograd import Variable >>> a = torch.Tensor([1]) >>> b = torch.Tensor([2]) >>> a = Variable(a) >>> b = Variable(b) >>> a.requires_grad = True >>> b = b.type(torch.cuda.FloatTensor) >>> c = a + b # 这里a和b两个张量不在同一个空间一个在cpu中另一个在gpu中因此会引发错误 Traceback (most recent call last): File "C:\Users\dell\Anaconda3\envs\my-pytorch\lib\site-packages\IPython\core\interactiveshell.py", line 2862, in run_code exec(code_obj, self.user_global_ns, self.user_ns) File "", line 1, in c = a + b File "C:\Users\dell\Anaconda3\envs\my-pytorch\lib\site-packages\torch\autograd\variable.py", line 813, in __add__ return self.add(other) File "C:\Users\dell\Anaconda3\envs\my-pytorch\lib\site-packages\torch\autograd\variable.py", line 319, in add return self._add(other, False) File "C:\Users\dell\Anaconda3\envs\my-pytorch\lib\site-packages\torch\autograd\variable.py", line 313, in _add return Add.apply(self, other, inplace) File "C:\Users\dell\Anaconda3\envs\my-pytorch\lib\site-packages\torch\autograd\_functions\basic_ops.py", line 17, in forward return a.add(b) TypeError: add received an invalid combination of arguments - got (torch.cuda.FloatTensor), but expected one of: * (float value) didn't match because some of the arguments have invalid types: (!torch.cuda.FloatTensor!) * (torch.FloatTensor other) didn't match because some of the arguments have invalid types: (!torch.cuda.FloatTensor!) * (torch.SparseFloatTensor other) didn't match because some of the arguments have invalid types: (!torch.cuda.FloatTensor!) * (float value, torch.FloatTensor other) * (float value, torch.SparseFloatTensor other)
batch_size, c, h, w = input.size() rh, rw = (2, 2) oh, ow = h * rh, w * rw oc = c // (rh * rw) out = input.view(batch_size, rh, rw, oc, h, w) out = out.permute(0, 3, 4, 1, 5, 2) out = out.view(batch_size, oc, oh, ow)
invalid argument 2: input is not contiguous at /pytorch/torch/lib/THC/generic/THCTensor.c:227
上述在第7行报错,报错原因是由于浅拷贝。上面式子中input为Variable变量。
上面第5行 out = out.permute(0, 3, 4, 1, 5, 2) 时执行了浅拷贝,out只是复制了out从input传递过来的指针,也就是说input要改变out也要随之改变。
解决方法是,在第6行的时候使用tensor.contiguous(),第6行改成:out = out.permute(0, 3, 4, 1, 5, 2).contiguous()即可。
默认这个选项是关闭的,对于我们大多数的任务来说,在开启的时候cudnn可以根据当前的设置来选择最优算法来加快训练速度。但是如果我们的输入在每一次的iterate的时候都进行变化,那么benchmark就会在每次iterate的时候重新选择最优算法,当选选择是需要花费时间的,反而速度会变慢,也就是说,如果我们每次训练的输入数据的size不变,那么开启这个就会加快我们的训练速度:torch.backends.cudnn.benchmark = True
我们在分类训练中经常遇到这个问题,一般来说在我们网络中输出的种类数和你label设置的种类数量不同的时候就会出现这个错误。
但是,Pytorch有个要求,在使用CrossEntropyLoss
这个函数进行验证时label必须是以0开始的:
假如我这样:
self.classes = [0, 1, 2, 3]
我的种类有四类,分别是0.1.2.3,这样就没有什么问题,但是如果我写成:
self.classes = [1, 2, 3, 4]
这样就会报错。
兄弟,啥也不说了,这不是Bug,这是显存不够了~
解决方法:1、换小的batch;2、图片尺寸换成小的;3、图片格式从float换成int;4、换大显存、大显卡;5、优化程序,每一步都释放掉多余的占用显存的变量;
在GPU训练中不正确的内存访问,有可能是程序问题也有可能是当前驱动不兼容的问题:
因为cuda运行是异步的,所以我们的错误信息可能没有那么准确,为此我们将环境变量 CUDA_LAUNCH_BLOCKING=1 设为1,在当前的terminal中执行 CUDA_LAUNCH_BLOCKING=1 python train.py
—— (train.py是你要执行的.py文件),再次执行就可以查看到当前出错的代码行。
仔细检查当前的代码,查看是否有内存的不正确访问,最常见的是索引超出范围。
如果不是代码问题,那么有可能是当前的pytorch版本和你的显卡型号不兼容,或者cudnn的库不兼容的问题。可以挑选出错误代码段对其进行简单的测试观察有没有错误即可。
利用is_contiguous()判断该tensor在内存中是否连续,不连续的话使用.contiguous()使其连续。
这个原因是因为程序中操作的numpy中有使用负索引的情况:image[…, ::-1]。
解决办法比较简单,加入image这个numpy变量引发了错误,返回image.copy()即可。因为copy操作可以在原先的numpy变量中创造一个新的不适用负索引的numpy变量。
这种错误有两种可能:
那么怎么解决,针对第一种,很简单,整理一下你的数据集保证每个图像的维度和通道数都一直即可。第二种来说,挑选一个可以被数据集个数整除的batchsize或者直接把batchsize设置为1即可。
这种错误并没有提示错误信息,属于在计算时内部的错误,所以来源是未知的。很有可能是pytorch的bug,最好dubug一下看看错误代码发生在哪儿,可以尝试下改变input的维度,或者将计算平台(CPU和GPU)切换一下,有些Pytorch的算子会存在bug,采用相同功能的不同的算子可能也会解决这个问题。
这种错误十有八九是因为读取数据的时候发生错误了,也就是自己设定的dataset在dateloader中进行batch读取的时候发生错误。一般来说是维度不匹配,如果一个数据集中有3通道的也有四通道的图像,总之就是从dataset中传入dataloader中的图像大小不一致。自己好好检查检查,是否将所有图像都变成同样的shape。
注意,只要是dataset中的数据都要shape一样,不论是图像还是label,或者box,都必须一致了。所以好好检查吧。
num_workers
大于1的DataLoader
无法debug有种奇怪的现象,当我们创建Pytorch中dataloader的时候,如果设置num_workers大于0,那么在debug的时候就会出现卡死的现象,这种原因有可能是pycharm的debugger不能够正确地识别程序运行中的子线程,因为num_workers这个参数是设置加载数据的subprocesses数量。所以解决办法就是将这个参数设置为0,这样就仅仅会使用主进程对数据进行读取,同时也可以debug。
这个不是训练过程中,是使用torch.onnx.export导出onnx模型时常见的问题,这个问题的意思是在trace你模型的时候,某些input和output不是规定的类型或者说不存在,检查一下你的模型的输入是否正确。