报错-模型训练: RuntimeError: CUDA unknown error - this may be due to an incorrectly set up environmen

目录

  • 现象
  • 原因
  • 解决方法
  • 现象
  • 原因
  • 解决方法

现象

模型训练时有如下报错:

    torch._C._cuda_init()
RuntimeError: CUDA unknown error - this may be due to an incorrectly set up environment, e.g. changing env variable CUDA_VISIBLE_DEVICES after program start. Setting the available devices to be zero.
INFO - 2023-09-27 10:32:31,872 - core - signal_shutdown [atexit]

原因

不知道

解决方法

安装nvidia-modprobe即可:

sudo apt-get install nvidia-modprobe

继续报错

现象

执行nvidia-smi时报错:

/usr/bin/nvidia-modprobe: unrecognized option: "-s"

ERROR: Invalid commandline, please run `/usr/bin/nvidia-modprobe --help` for
       usage information.

原因

nvidia-modprobe版本过低,与显卡驱动的版本不匹配导致的。

解决方法

1 下载与显卡驱动一致的nvidia-modprobe
官方下载地址为https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu1804/x86_64/
对应好系统版本和CPU位数,我的电脑用的是Ubuntu 18.04 + x86_64
下载与nvidia-driver对应的版本即可:

http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/nvidia-modprobe_470.182.03-0ubuntu1_amd64.deb

2 安装nvidia-modprobe

sudo dpkg -i nvidia-modprobe_470.182.03-0ubuntu1_amd64.deb

3 检查nvidia-smi是否报错

你可能感兴趣的:(linux,人工智能,自动驾驶,算法,深度学习)