Pytorch常用问题——cuda runtime erorr

1. 运行程序,会报错“RuntimeError: cuda runtime erorr (77): an illegal memory access was encountered at”

解决方案:在代码前面加上如下命令

os.environ['CUDA_LAUNCH_BLOCKING'] = '1'

2. 接着,出现错误“RuntimeError: CUDA error: no kernel image is available for execution on the device”

解决方案:在python  console中输入如下测试代码

#1. 导入torch
import torch

# 2. 检测CUDA是否安装正确并能被Pytorch检测
torch.cuda.is_available()

#3. 查看Pytorch能不能调用cuda加速
t = torch.ones(1,1,28,28)
t = t.cuda()
t

事实证明第三步代码无法正常运行,会报错“RuntimeError: CUDA error: no kernel image is available for execution on the device”,说明cuda版本与gpu不匹配,查阅相关资料

cuda算力

Pytorch常用问题——cuda runtime erorr_第1张图片

 本人使用的是3090显卡,算力8.6,一开始安装的是torch=1.10.1,依赖的cuda不支持8.6算力的gpu,因此无法成功运行代码;后来,按如下命令,更换torch版本,依赖cuda 11,可以正常运行上面的测试代码。

pip install torch==1.8.0+cu111 torchvision==0.9.0+cu111 torchaudio==0.8.0 -f https://download.pytorch.org/whl/torch_stable.html

但是,接着出现以下错误“original error: ..../lib/python3.6/site-packages/cupy_backends/cuda/api/runtime.cpython-36m-x86_64-linux-gnu.so: symbol cudaDeviceSetMemPool version libcudart.so.11.0 not defined in file libcudart.so.11.0 with link time reference”

猜测可能是cupy未成功安装,输入以下命令,安装cupy:

pip install cupy-cuda111
pip install --user --no-cache-dir cupy-cuda111

cupy 8.3.0和cupy-cuda111不匹配,使用如下命令重新安装cupy:

conda install -c conda-forge cupy cudatoolkit=11.1 cudnn cutensor nccl

最终成功运行!

你可能感兴趣的:(Bug百宝箱,pytorch,深度学习,人工智能)