(1)下载驱动
NVIDIA 驱动程序下载, 根据自己的GPU型号旋转相应的驱动进行下载,下载后的驱动程序放入主目录下(/home/my_work),这是因为在后续的驱动纯命令行安装环境下,不支持中文输入,不容易切换目录。
(2)卸载原有驱动
两种方式,如果新装的的系统,就不必执行以下代码
#for case1: original driver installed by apt-get:
sudo apt-get remove --purge nvidia*
#for case2: original driver installed by runfile:
sudo chmod +x *.run
sudo ./NVIDIA-Linux-x86_64-384.59.run --uninstall
(3)禁用nouveau驱动
sudo gedit /etc/modprobe.d/blacklist.conf
在最后一行添加:
blacklist nouveau
之后,执行命令:
sudo update-initramfs -u
电脑重启之后执行
lsmod | grep nouveau #没有输出,即说明安装成功
(4)安装驱动
进入命令行界面:Ctrl-Alt+F6(我看有的是说ctrl-alt+F1,我测试是不可以的),之后输入用户名和密码登录即可(注意这里需要已经安装了gcc:sudo apt-get install build-essential),安装提示不断的接受即可安装成功。(尽量你的系统是英文版的,因为到了终端后,不能打汉字,要是你的系统是汉化的,那你就进不了目录里面)
sudo ./NVIDIA-Linux-x86_64-455.28.run
(或者sudo ./NVIDIA-Linux-x86_64-455.28.run --add-this-kernel)
安装完后,输入nvidia-smi,若输出GPU的状态信息就代表驱动安装成功,然后reboot重启
(1)根据gpu型号下载对应的驱动程序
CUDA Toolkit 11.0 Download | NVIDIA Developer
根据需要决定是否安装10.2还是11.1版本的,右下角可以找到历史版本。
wget http://developer.download.nvidia.com/compute/cuda/11.0.2/local_installers/cuda_11.0.2_450.51.05_linux.run
sudo sh cuda_11.0.2_450.51.05_linux.run
(这里强烈建议选择deb(local)方式安装,因为后面如果使用tensorRT,他们提供的版本大多是是deb和tar,这里的runfile是什么鬼东西我也没搞明白)
【若在执行完上面第一条下载命令后出现了s段已转储错误,所以建议先执行以下步骤,没有出现可忽略此步骤:
gedit .bashrc.
在文件末尾添加
ulimit -c unlimited
ulimit -s 819200
再另一个终端输入命令激活
source .bashrc
】
(2)安装cuda
accpet
,以及下一步在很多X选择的时候,把第一个Nvidia显卡去掉(按回车去掉),其他都是默认,最后选install回车执行。gedit ~/.bashrc
# 文本最后添加以下内容:
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64
export PATH=$PATH:/usr/local/cuda/bin
export CUDA_HOME=$CUDA_HOME:/usr/local/cuda
# 保存退出,打开新终端激活
source ~/.bashrc
(3)测试cuda
cd /usr/local/cuda/samples/1_Utilities/deviceQuery
sudo make
./deviceQuery
当输出Result = PASS字样如下
则安装成功
CUDA安装成功后,即可进行GPU进行训练,后期安装的cuDNN是加速库,不安装也不影响gpu的使用
要想查看安装的cuda版本,可以用
nvcc -V 或者 cat /usr/local/cuda/version.txt , 正常情况下两个输出信息是一样的,第一个有事可能和第二个不一致,以第二个为准, 也就是你安装cuda的版本号 , nvidia-smi 界面显示的cuda版本不是你安装的cuda版本,
(1)下载cuDNN
需要注册账号,下载cuDNN对应CUDA的版本
NVIDIA cuDNN | NVIDIA Developer
https://developer.nvidia.com/rdp/cudnn-download
(2)安装
可参考官方给出的安装指导, 对于linux系统,主要有两种方式,一种是tgz,一种是deb格式(要下载三个文件,runtime,dev,sample,并且依次安装),我尝试了用deb安装,安装成功后,
安装参考:Installation Guide :: NVIDIA Deep Learning cuDNN Documentation
(3)测试:
按照说明进行测试,编译一个sample的时候提示没有freeImage.h这个文件,。(这里也有可能会提示gcc版本过高的问题,若出现降低gcc,g++版本即可)
原因是确实相应的文件,解决方法是:
sudo apt-get install libfreeimage3 libfreeimage-dev
重新编译运行即可。
******
在安装cuda和cuDNN时尤其要注意版本之间的的兼容依赖关系,比如ubuntu版本,cuda,cuDNN,torch,gpu版本,如果哪里版本不对就可能出错,后面找问题很难,所以一定按官方给的版本一步步来。
参考:Ubuntu 20.04安装CUDA 11_绝版小哥的博客-CSDN博客_ubuntu安装cuda11
Ubuntu18.04下NVIDIA驱动+CUDA11.0安装 - it610.com