想一步登天的直接看第三次尝试,前两次都失败了
本人在使用cuda和pytorch时发现服务器的显卡驱动版本太低,准备升级版本,于是卸载了原来的显卡驱动,结果发现开机黑屏。分析原因可能与卸载了显卡驱动有关,这台服务器有集显和独显,卸载驱动后导致独显无法使用,而开机时默认设置可能是使用独显,所以造成开机黑屏的情况,于是拆掉显卡、将dp线换为vga线后可正常使用,后续需要将显卡装回。拆机过程如下图所示
出现inspur的logo时按“del”/“delete”键进入bios
选择chipset->Common Configuration
选择VGA Priority,发现之前的设置果然是off board(独显优先),改为on board(集显优先)
按F10保存,选择yes
关机,断电,怎么拆的再怎么把显卡装回去。可以参考前言中的图。
找到适合自己的版本的显卡驱动下载https://www.nvidia.com/Download/index.aspx
为Nouveau驱动创建新的黑名单:
sudo vim /etc/modprobe.d/blacklist-nouveau.conf
添加如下语句:
blacklist nouveau
options nouveau modeset=0
更新核心文件
sudo update-initramfs -u
重启设备 检查是否禁用成功
sudo lsmod | grep nouveau
无返回则禁用成功
禁用lightdm服务:
sudo service lightdm stop
按下Ctrl+Alt+F1进入tty命令行模式,并登录账户。
将下载的驱动文件赋予可执行权限:
sudo chmod +x ~/downloads/NVIDIA-Linux-x86_64-510.54.run
运行安装包:
cd ~/download
sudo ./NVIDIA-Linux-x86_64-510.54.run
实际上好像报了一些错,疑似没有装好,但还是出现了重复登陆的情况
可能是内核版本与驱动不一致
不在图形界面登录,Ctrl+Alt+F1进入tty命令行模式,并登录账户。然后卸载驱动。
1.失败的尝试
sudo apt-get remove --purge nvidia-*
别人或许可以,可是对我没有用,因为我感觉我驱动就装失败了。
2.成功的尝试
在downloads文件夹下找到下载的.run文件,我的是NVIDIA-Linux-x86_64-510.54.run
sudo ./NVIDIA-Linux-x86_64-510.54.run --uninstall
终于成功卸载,得以正常开机。
查看显卡型号和推荐安装的驱动
ubuntu-drivers devices
如果同意安装推荐版本,那我们只需要终端输入:sudo ubuntu-drivers autoinstall
就可以自动安装了。
然后就反复登录了
由于这次装成功了,所以用下面的命令卸载成功了。
sudo apt-get remove --purge nvidia-*
怀疑是有些依赖没安装引起的。
!!!安装依赖!!!
sudo dpkg --add-architecture i386
sudo apt update
sudo apt install dkms build-essential linux-headers-generic
sudo apt-get install lib32ncurses5
sudo apt-get install lib32z1
后面的操作和第一次尝试类似,但有一点区别
找到适合自己的版本的显卡驱动下载https://www.nvidia.com/Download/index.aspx
为Nouveau驱动创建新的黑名单:
sudo vim /etc/modprobe.d/blacklist-nouveau.conf
添加如下语句:
blacklist nouveau
options nouveau modeset=0
更新核心文件
sudo update-initramfs -u
重启设备 检查是否禁用成功
sudo lsmod | grep nouveau
无返回则禁用成功
禁用lightdm服务:
sudo service lightdm stop
按下Ctrl+Alt+F1进入tty命令行模式,并登录账户。
将下载的驱动文件赋予可执行权限:
sudo chmod +x ~/downloads/NVIDIA-Linux-x86_64-510.54.run
!!!运行安装包!!!:
cd ~/download
sudo ./NVIDIA-Linux-x86_64-510.54.run --no-opengl-files -no-x-check -no-nouveau-check
–no-x-check 安装驱动时关闭X服务
–no-nouveau-check 安装驱动时禁用nouveau
–no-opengl-files 只安装驱动文件,不安装OpenGL文件
中途所有选项都按照默认选项来,出现这个就是装好了
reboot
重启,nvidia-smi
检验是否装好
又又又开机重复登录了,一检查发现果然又是驱动的问题
可以看到,显卡是插好了的,但是没有驱动,先把可能存在的驱动卸载了
sudo apt-get remove --purge nvidia-*
然后能正常开机登录了。再装一遍吧fine。之前不知道为什么装的510不见了,换成了340版本的,这次还是按照推荐安装吧。