Ubuntu 16.04.5 (x86_64)下安装CUDA10 for 深度学习

网上查了下,记录安装CUDA10的文章很少,这里记录下自己安装过程,给需要的人参考下。
参考:官网原版安装指南
作者:Su Liang,2018-10-19
我的系统:
Ubuntu的版本:cat /etc/issue,Ubuntu 16.04.5
Ubuntu的系统位数:sodu uname –m,X86_64
GPU:GeForce GTX1080ti
显卡驱动:预装,版本384.130

update/2018-11-7:
由于显卡版本需要匹配或者超越cuda的版本要求,此处预装显卡版本过低,所以先要卸载旧版显卡,安装新版显卡。这里可以参考cuda的release note,查看驱动兼容性:https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
由于我需要安装的cuda10, 对应显卡驱动需要>=410.48,否则后续调试代码会报错cuda driver version is insufficient to runtime cuda version. 如果安装的是cuda9.2(带update1版),对应显卡驱动需要>=396.37。
卸载和安装更新显卡的过程有点小坑需要踩(需要先卸载已装显卡,禁用原配集成显卡nouveau,安装时不安装openGL等,可能会碰到循环登录或者黑屏,但基本在文字界面内都可以搞定)

CUDA的介绍:是并行计算平台和编程模型,他通过驱动GPU快速提高运算能力,如果要使用GPU,就必须用CUDA进行编程来驱动GPU

(1)查看本机显卡:

lspci | grep -VGA

说明本机一共2块显卡,都是nvidia公司的,后续如果安装openGL就不会冲突,因为openGL只支持nvidia的显卡,其他公司的会被openGL安装覆盖。

(2)查看本机GPU:

lspci | grep -i nvidia

此命令为显示(ls)所有pci设备,并只显示nvidia公司设备

(3)查看本机gcc版本:

gcc --version

此gcc版本为5.4.0,gcc用于对cuda代码进行调试
从nvidia官网文件可以查到ubuntu16.04能支持的GCC是5.4.0,这也是CUDA10的允许配置,跟我机器上的ubuntu版本及GCC版本是匹配的。如果安装CUDA8就有问题了,他只能支持ubuntu16.04里的GCC5.3.1,就得对GCC进行降版本。

(4)查看本机是否有正确的内核Head和安装包:
CUDA的安装要求kernel的版本跟kernel head以及跟开发包的版本必须匹配。因为CUDA在安装的时候如果检测到没有安装过kernel head和开发包会安装相应kernel head和开发包,但他是安装最新版,不一定跟本机的kernel匹配。所以最好手动先安装正确的版本的kernel header和开发包。
查看本机kernel版本:uname -r
安装匹配的kernel header和开发包(ubuntu):sudo apt-get install linux-headers-$(uname -r)

(5)安装适合自己的GPU驱动:
机器买的时候据说已经安装,保险起见,先查一下
cat /proc/driver/nvidia/version 查看显卡版本:显示为NVRM已安装,gcc已安装
nvcc -v 查看cuda版本:显示为cuda toolkit还没有安装过

如下两个命令看看显卡驱动的信息:
nvidia-smi 用于查看显卡状态,两块GeForce GTX1080ti显卡

nvidia-settings 用于查看设置

(6)下载CUDA
从官网上选择安装方式:https://developer.nvidia.com/cuda-downloads
这里选择runfile,不需要复杂的安装命令和后续一些补充包的安装,直接一部到位。

接下来基于runfile installation方式进行NVIDIA驱动/CUDA toolkit的安装
update/2018-11-2:
之前安装完成会有warning说几个lib没装,虽然不要紧,但还是调整下,在装之前先运行如下命令安装lib:

sudo apt-get install freeglut3-dev build-essential libx11-dev libxmu-dev libxi-dev libgl1-mesa-glx libglu1-mesa libglu1-mesa-dev

(7)首先禁掉nouveau driver:
nouveau是ubuntu16.04默认安装的第三方开源驱动,安装cuda会跟nouveau冲突,需要事先禁掉,运行命令后需要没有任何输出就代表禁掉了。
我的机器在安装显卡驱动时已经禁掉了nouveau,此处验证通过。

lsmod | grep nouveau

(8)重启进入text mode(runlevel 3)
可以按ctrl+alt+f1进入文本模式
然后进入安装文件夹执行安装命令:sudo sh cuda_10.0.130_410.48_linux.run
第一次安装失败:提示说X server is running
重新上网查了下网上的说,应该是我的X server没有关掉,解决办法是:
ctrl + alt + f1 进入文字界面
sudo service lightdm stop 关闭图形界面,此时如果ctrl + alt + f7是无法返回图形界面的
sudo sh cuda_10.0.130_410.48_linux.run 重新进入安装文件夹进行安装
nvidia accelerated graphics driver ——不安装
openGL——不安装
其他都yes
最后安装完成,但提示3个recommended library missing,以及一个warning需要安装高于384.00的驱动版本。我查了下之前安装的驱动版本是384.130,是满足要求的。

重启reboot,回到图形界面
(9)环境设置:
在/etc/profile文件中进行设置,但由于该文件是只读的,直接打开后不能保存。需要用sudo gedit命令打开,这样就能保存了。然后用source命令(也叫点命令)重新执行刚修改的初始化文件,使之立刻生效而不必注销重新登录
sudo gedit /etc/profile 打开/etc/profile文件
export PATH=/usr/local/cuda-10.0/binKaTeX parse error: Expected '}', got 'EOF' at end of input: {PATH:+:{PATH}} 把路径包含进path变量
export LD_LIBRARY_PATH=/usr/local/cuda-10.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}} 修改64x系统环境变量
source /etc/profile 关闭/etc/profile文件

(10)检查安装结果
cat /proc/driver/nvidia/version 查看nvidia驱动的版本(版本340.130)
nvcc -V 查看CUDA的版本(注意是大写V,版本V10.0.130)
安装成功!

你可能感兴趣的:(DeepLearning)