Ubuntu下的NVIDIA显卡【驱动&CUDA 安装与卸载】

  • 0. 显卡GPU的基础知识
  • 1. 显卡安装
  • 2. Optional: 卸载显卡(当你要换显卡的时候)
  • 3. 安装CUDA
    • CUDA 11.1 Ubuntu 20.04
  • 4. Optional: 卸载CUDA
  • 附:问题合集
    • ubuntu-derivers devices 没有Output
    • [CONDITION] nvidia-cannot load autoinstall后安装完成,但是无法加载

碎碎念:主要是把显卡相关的整合出来,基础知识后面再放上来
显卡安装后可以有效降低电脑开太多界面卡顿hhh现象,不过如果显卡不好的话或者是独显的话 问题也不大,主要是学习 learning 使用
参考资料都随着后文附在文内了

0. 显卡GPU的基础知识

待填入

1. 显卡安装

参考资料:知乎 Ubuntu 18.04 安装 NVIDIA 显卡驱动
1.终端输入:

ubuntu-drivers devices

查看自己的是否是nvidia的显卡驱动
Ubuntu下的NVIDIA显卡【驱动&CUDA 安装与卸载】_第1张图片
最后有个recommended的就是推荐的安装,

2.如果安装推荐版本直接:

sudo ubuntu-drivers autoinstall

无需进行任何设置 ,安装完成后sudo reboot

3.重启后,输入这个查看是否安装成功了

nvidia-smi

Ubuntu下的NVIDIA显卡【驱动&CUDA 安装与卸载】_第2张图片
同时右上角也可以看到CUDA版本(11.1好像pytorch还不支持 LOL)

2. Optional: 卸载显卡(当你要换显卡的时候)

首先打开自己的software & updates: 选择用独显来显示,不然直接从硬件换显卡会… 黑屏的
Ubuntu下的NVIDIA显卡【驱动&CUDA 安装与卸载】_第3张图片
选中后点击apply changes后,等待一段时间,重启,进入设置确认一下是否已经换好了:
Ubuntu下的NVIDIA显卡【驱动&CUDA 安装与卸载】_第4张图片
看到这里不再是NVIDIA的即可,继续卸载显卡驱动了
首先如果是zsh,请切换到bash

bash
sudo apt remove nvidia-*

Ubuntu下的NVIDIA显卡【驱动&CUDA 安装与卸载】_第5张图片
接着关机,换显卡:

第一、二步拆下原显卡,第三步安装新显卡(不要问我为啥从大的到小的了,因为大的是我自己的… )
然后屏幕接好,开机:
Ubuntu下的NVIDIA显卡【驱动&CUDA 安装与卸载】_第6张图片
就又回到安装显卡的时候啦~ OVER

3. 安装CUDA

这里的前提是完成了安装显卡的步骤哦
Ubuntu下的NVIDIA显卡【驱动&CUDA 安装与卸载】_第7张图片
图片中① CUDA Version:11.1是指这个 显卡版本能够安装的最高版本的CUDA
图片中② 是你的显存是多少 比如这里是6G的显存

引用参考:深度学习 最快方式安装CUDA和 Nvidia Driver

CUDA下载
Autoware对CUDA的要求是:10.0 如果你需要运行其他的可以具体看github readme里面说明的CUDA版本即可,不同版本的安装也基本都是一个步骤

CUDA安装:CUDA Toolkit 10.0 Archive 下载
但是官方下载的地址有点慢,看看后面能不能给贴一个链接分享
Ubuntu下的NVIDIA显卡【驱动&CUDA 安装与卸载】_第8张图片
如图检查并点击箭头

运行下载的

# 首先cd到下载的那个文件夹中 
sudo sh ./cuda_10.0.130_410.48_linux.run

然后会出来一个专利书来阅读,长按CTRL+F(CTRL +B是往前翻一页)即可

最后会出来的选项:
1): Do you accept the previously read EULA?
accept
2): Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 **?
n(因为我们已经在上面的步骤安装了最新的显卡驱动)
3): Install the CUDA 10.0 Toolkit?
y
4): Enter Toolkit Location
(直接回车,默认那个就好)
5): Do you want to install a symbolic link at /usr/local/cuda?
y
6): Install the CUDA 10.0 Samples?
y(其实可以是n,不信的话你可以按照最上面的方法卸载cuda toolkit之后,cuda-10.0文件下还是有 Samples文件,当然了,不用太纠结~)
7): Enter CUDA Samples Location
(直接回车,默认那个就好)

export 设置路径PATH

# bash的终端的话 默认就是这个
gedit ~/.bashrc

# zsh终端的话
gedit ~/.zshrc

添加:

export PATH=/usr/local/cuda-10.0/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-10.0/lib64:$LD_LIBRARY_PATH

然后可以测试一下是否安装成功

cd /usr/local/cuda-10.0/samples/1_Utilities/deviceQuery
sudo make -j4
./deviceQuery

Ubuntu下的NVIDIA显卡【驱动&CUDA 安装与卸载】_第9张图片

CUDA 11.1 Ubuntu 20.04

这个安装和上面的差不多,只是界面可能变了 得等会
选择地址为:https://developer.nvidia.com/cuda-toolkit-archive
补充主要是因为发现Ubuntu 20.04下 10.0版本无,所以走到了11.1/11.3 主要看torch版本

大致安装完后显示如下:
Ubuntu下的NVIDIA显卡【驱动&CUDA 安装与卸载】_第10张图片

同时也要记得给.zshrc 添加路径

export PATH=/usr/local/cuda-11.1/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-11.1/lib64:$LD_LIBRARY_PATH

4. Optional: 卸载CUDA

下面将描述如何安全卸载CUDA 进行版本之间的替换,其实正常情况下,CUDA版本是无需再换的,一般都是用docker进行的 程序之间如果不兼容CUDA版本的测试的,这样也更方便

如上截图中所示,如果要卸载cuda,首先要给出权限,然后进入 因为usr这个文件夹是sudo权限下的

sudo -i
cd /usr/local/cuda-11.1/bin
./cuda-uninstaller

这里cuda-xx.x 是对应自身的版本,因为我卸载的也是11.1 所以是一致的

Ubuntu下的NVIDIA显卡【驱动&CUDA 安装与卸载】_第11张图片

如上图所示,卸载成功

附:问题合集

ubuntu-derivers devices 没有Output

I had the same problem. Software & Updates > Ubuntu software > check 'Proprietary drivers for devices' option. Then update from gui or sudo apt update

[CONDITION] nvidia-cannot load autoinstall后安装完成,但是无法加载

nvidia-smi也同样无法使用,这是群友的一个问题,看到了其他人也有过相似问题 以为是firmware warning解决一下就好了,但是遗憾的是我并没有解决,猜测可能如果有系统报错问题 可能也有系统层的问题 弄了半小时 hhh 重装系统吧。
但是把之前看到过相似的问题答案贴一下,并不适用所有人 可以尝试一下:
问题出现:
首先左图为遇到的install过程中遇到的missing firmware:
右侧为 出现过这个问题解决了 https://askubuntu.com/questions/1040515/nvidia-driver-installs-but-does-not-load-on-ubuntu-18-04
Ubuntu下的NVIDIA显卡【驱动&CUDA 安装与卸载】_第12张图片
可以根据这个答案进行安装w: possible missing firmware /lib/firmware/rtl_nic/rtl8125a-3.fw for module r8169

There is a similar bug reported here : Debian Bugs
The files rtl8125a-3.fw and rtl8168fp-3.fw can be found on:
Git Kernel
Then run the commands :

sudo cp ~/Downloads/*.fw /lib/firmware/rtl_nic/
sudo update-initramfs -u

然后呢 就算装完了 我卸载了 还是不太行,主要是中途也跳系统错误 emmm 所以只能提供一个思路了,不一定适用所有遇到这个现象问题的人
现象主要是:

ubuntu-drivers devices
sudo ubuntu-drivers autoinstall

都没啥问题 除了第二点运行后会有一个提醒missing
然后重启后

nvidia-smi

Ubuntu下的NVIDIA显卡【驱动&CUDA 安装与卸载】_第13张图片
然后我又看了一下到底是否安装上了

就发现emmm 这里software这边additional_drivers都ok了 系统的about确没反应过来:
Ubuntu下的NVIDIA显卡【驱动&CUDA 安装与卸载】_第14张图片

然后搜索到的问题同样如此,此处为 解决了的:
Nvidia driver installs but does not load on ubuntu 18.04

然而 情况不适用于我这里,群友帮助也是说可能是18的小毛病,让其试试20是否ok
以下为网友聊天

2021/11/10 西瓜哥:我最近装的几个下半年的新本子,灵刃14、幻16、灵越16plus,1804装驱动都失败了;换2004叭,我之前也是各种都试了,症状和他差不多

你可能感兴趣的:(Ubuntu,&,ROS,1024程序员节)