nvidia-smi命令无法正常使用的解决方案

      深度学习训练模型之时需要GPU支持,但是当我们输入nvidia-smi之后会提示类似于NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver以及Failed to initialize NVML: Driver/library version mismatch的错误。以下分别进行说明

NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver

一、查找并安装推荐驱动

执行命令

sudo ubuntu-drivers devices

会提示推荐安装的nvidia驱动。安装带有recommended字样的软件包即可。如下图
nvidia-smi命令无法正常使用的解决方案_第1张图片
执行

sudo apt-get install nvidia-driver-465

安装即可。一般来说安装完成后nvidia-smi命令就会正常显示,如果不行再接着下面进行手动编译安装

二、手动编译安装

注:第二部分的命令都在root下执行

1.编译原版内核

  • 使用
cd /usr/src/linux-headers-$(uname -r)

命令进入当前所使用的内核源码目录。

  • 使用
cp /boot/config-$(uname -r) .config

命令拷贝当前所使用的内核配置文件到内核原码路径。

  • 执行make编译原代码 ,在编译代码的过程中若提示少某个命令则直接安装即可。如下提示少flex,则直接使用apt-get install flex bison安装,然后再执行make即可。

nvidia-smi命令无法正常使用的解决方案_第2张图片

  • 不需要整个执行完成,最多顺利执行十秒即可退出。如果出现如下的错误也可以直接退出,我们只是需要内核编译中生成的某个文件而已,而此文件在顺利编译前几秒中即可出现。

nvidia-smi命令无法正常使用的解决方案_第3张图片

2. 编译nvidia驱动模块

  • 在执行第一步的sudo apt-get install nvidia-driver-465命令后会出现/usr/src/nvidia-465.27目录(如果之前有其他版本的,也可以使用其它的版本)。此时我们使用
dkms install -m nvidia -v 465.27

命令即可(请根据情况修改对应的版本号)

  • 上一步若提示找不到dkms命令,则使用sudo apt-get install dkms命令安装。
  • 稍等一会儿,出现如下的界面后则驱动模块文件编译安装完成。

nvidia-smi命令无法正常使用的解决方案_第4张图片
4. 模块编译成功后使用sudo modprobe nvidia加载驱动模块,再执行nvidia-smi命令,我们熟悉的界面就回来啦!
nvidia-smi命令无法正常使用的解决方案_第5张图片
5. 此时虽然GPU驱动弄好了,但是显示器的分辨率不正常。我们使用reboot命令重启机器或者sudo systemctl restart lightdm命令重启图形界面 (仅以lightdm为例),以使分辨率和GPU模块均恢复正常。

Failed to initialize NVML: Driver/library version mismatch

这种情况下大多是因为驱动加载了但是不匹配造成的。按照上面的处理方法应该就能处理成功,但是由于内核驱动文件已经在使用,从而没有办法重新加载,因此一般重启机器就能成功,如果因为某些原因不能重启机器之时我们需要将模块先卸载再重新加载,如此按照下面步骤进行操作即可。
6. 使用命令

lsmod | grep nvidia

命令进行查看驱动的挂载情况,如下所示则说明驱动已经挂载。
nvidia-smi命令无法正常使用的解决方案_第6张图片

  1. 上图中说明驱动nvidianvidia_uvm以及nvidia_modeset引用,并且一共引用了744次,要想卸载它则必须先卸载后面的两个。直接使用下面的命令查看哪些进程引用以nvidia开头的驱动。
sudo lsof -n -w  /dev/nvidia*

以下是示例图。
nvidia-smi命令无法正常使用的解决方案_第7张图片

  1. 强制杀掉这些进程
sudo kill -9 1140 10440
  1. 然后依次卸载这些模块
sudo rmmod nvidia_uvm
sudo rmmod nvidia_modeset
sudo rmmod nvidia
  1. 如果无法卸载成功则重复6,7,8三步命令,直到第8步完全成功为止。然后再执行
nvidia-smi

命令。程序会自动加载所需要的驱动。
nvidia-smi命令无法正常使用的解决方案_第8张图片

你可能感兴趣的:(开发工具,pytorch,gpu,nvidia)