NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.问题解决

1 问题描述

服务器重启后,输入nvidia-smi查看显卡占用情况,发现报如下错误:

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

这是因为电脑重启自动更新,linux内核升级,之前的nvidia驱动无法正确匹配连接。

2 解决方案:安装运行DKMS

DKMS全称是Dynamic Kernel Module Support,它可以帮我们维护内核外的这些驱动程序,在内核版本变动之后可以自动重新生成新的模块。
在使用dkms之前首先需要确保系统中已经安装了 DKMS。

1. 安装dkms:
sudo apt-get install dkms
2. 查看本机连接不上的驱动版本:
ls -l /usr/src/

可以看到一个nvidia的文件,如下:

drwxr-xr-x  7 root root   4096 Aug  5  2022 nvidia-450.80.02
3. 使用dkms重新安装适合内核的驱动:
sudo dkms install -m nvidia -v 450.80.02

注意将450.80.02换成自己的版本。

4. 输入nvidia-smi检查可以显示显卡信息

你可能感兴趣的:(配置错误解决,服务器,GPU,ubuntu)