ubuntu服务器关机重新开机之后nvidia-smi不显示但nvcc -C没问题

安装stable diffusion webui过程中发现的问题。

出现报错:

AssertionError: Torch is not able to use GPU; add --skip-torch-cuda-test to COMMANDLINE_ARGS variable to disable this check

然后来看nvidia-smi 的时候发现驱动挂了

1. nvcc -V,查看cuda是可以看到的

说明之前至少安装cuda的时候没挂,应该是服务器启动的问题。

2.  检查了一下 

# whereis nvidia
nvidia: /usr/lib/nvidia /usr/share/nvidia /usr/src/nvidia-450.102.04/nvidia

# dkms status
nvidia, 450.102.04, 5.4.0-132-generic, x86_64: installed

说明驱动已经安装。不然的话可以用这个解决方案: 

sudo apt-get install dkms #DKMS全称是Dynamic Kernel Module Support,它可以帮我们维护内核外的这些驱动程序,在内核版本变动之后可以自动重新生成新的模块。
sudo dkms install -m nvidia -v 410.78 #410.78是安装驱动的版本

 ubuntu关机开机后显卡挂了:报错NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. M... - 简书 (jianshu.com)(138条消息) NVIDIA驱动失效简单解决方案:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver._nvdia-smi has failed_AI 菌的博客-CSDN博客

3. 原因:linux系统内核更新和nvidia驱动不适配

4. 解决方案:

(138条消息) 显卡驱动报错:NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver._显卡报错命令是什么_oyrq的博客-CSDN博客

 期间遇到了另一个问题:


# sudo dkms install -m nvidia -v 450.102.04
Error! Your kernel headers for kernel 5.4.0-144-generic cannot be found.
Please install the linux-headers-5.4.0-144-generic package,
or use the --kernelsourcedir option to tell DKMS where it's located

检查了一下确实没装:

# dpkg-query -s linux-headers-5.4.0-144-generic
dpkg-query: package 'linux-headers-5.4.0-144-generic' is not installed and no information is available
Use dpkg --info (= dpkg-deb --info) to examine archive files.

(138条消息) Linux如何查看内核版本并安装内核头文件linux-headers-generic_高精度计算机视觉的博客-CSDN博客

安装:

 sudo apt-get install linux-headers-$(uname -r)

5. 最后再看nvidia-smi就没问题了

ubuntu服务器关机重新开机之后nvidia-smi不显示但nvcc -C没问题_第1张图片ubuntu服务器关机重新开机之后nvidia-smi不显示但nvcc -C没问题_第2张图片​编辑

进而也可以去解决下一个安装stabel diffusion时出现的bug了:)

你可能感兴趣的:(ubuntu,linux,运维)