初次使用GPU,遇到的一些cuda error及解决办法

1.GPU RuntimeError: CUDA error: invalid device ordinal
解决办法:可能是在程序的多个地方都定义了使用的cuda编号,即使编号是一样的也会报这样的错误。解决办法是只保留一个

2.使用os.environ['CUDA_VISIBLE_DEVICES'] = 'x'指定使用的GPU编号后,实际使用时还是0号GPU
解决办法:把这个语句用到所有需要加载参数、数据的语句前,最方便的就是在import各种包时顺便用os.environ[‘CUDA_VISIBLE_DEVICES’]指定显卡编号

3.Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cuda:5
解决办法:和2有点类似,可能是一些模型加载时,默认加载到了0号卡上,后面用xx.to(device)时把数据加载到了自己指定的卡上。解决办法和2一致:在import各种包时顺便用os.environ[‘CUDA_VISIBLE_DEVICES’]指定显卡编号,并且后续不要再用其它方法指定显卡编号

4.查看模型在哪张卡上:
print(next(model.parameters()).device)
如果是在GPU上,会输出具体的GPU编号,比如cuda:0

你可能感兴趣的:(python,python)