为了跑pytorch,在本本上安装ubuntu双系统和cuda驱动,踩了很多的坑,前前后后遇到各种问题,参考了很多大神们的教程。因此打算总结一遍,也希望帮后来者减少麻烦。
刚开始屁啥也不懂,参考了博客http://blog.csdn.net/masa_fish/article/details/51882183的教程。该博客中提到的NVIDIA官方教程同样非常重要。基本上是以官方教程为主(毕竟是官方给的说明书,再长还是耐着性子看了下去。。),博客教程为辅,顺顺利利安装成功。
主要分以下几点需要注意的:
1、检查是否有可使用cuda的GPU:$ lspci | grep -i nvidia。有返回则OK。
2、检查Linux版本是否支持:$ uname -m && cat /etc/*release。
3、检查gcc信息:gcc --version,返回gcc信息。
4、检查是否安装了kernel header和package development:uname -r指令可以查看kernel版本信息
sudo apt-get install linux-headers-$(uname -r)用于更新安装对应版本的kernel header和package development。
5、禁用nouveau:在终端输入指令lsmod | grep nouveau。如果有返回则需要禁用nouveau:
在/etc/modprobe.d中创建文件blacklist-nouveau.conf,并在其中输入:
blacklist nouveau
options nouveau modeset=0。
打开终端,输入指令sudo update-initramfs -u。
这时候再输入lsmod | grep nouveau,如果没有返回则表明已经禁用。我测试的时候,仍然有返回,这时重启计算机后再次输入,发现已经成功禁用。
以上步骤可以根据NVIDIA官方提供的教程CUDA 官方安装文档下载 一一核对。
这时根据上面提到的博客中提供的链接:CUDA 下载链接下载对应的runfile安装文件。
开始安装,alt+ctrl+F1,进入text mode。
输入sudo service lightdm stop,关闭图形化界面。
进入到*.run的下载目录,sudo sh *.run开始安装。
其中需要注意的,openGL不安装,其他根据默认项或是选yes。
安装完成后,sudo service lightdm start。
alt+ctrl+F7,回到图形化界面。输入密码登录。如果不出现循环登录的情况,基本上是安装成功了。
检查/dev目录下有没有nvidia*一系列文件,如果没有则按照官方文档上添加。我安装的时候没有发现,也不知道怎么添加,不过似乎不影响使用。
添加环境变量:终端输入sudo gedit /etc/profile。在最后输入
export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
在终端输入env,检查是否将环境变量添加进去。到此,cuda的安装就告一段落。
安装完毕后的检查工作:
1、检查NVIDIA Driver是否安装成功。终端输入cat /proc/driver/nvidia/version会输出NVIDIA Driver版本号
2、检查cuda toolkit是否安装成功:终端输入nvcc -V查看cuda的版本信息
3、尝试编译cuda提供的例子:切换到例子存放的路径,默认路径为~/NVIDIA_CUDA-*_Samples。然后在终端输入make。
如果出现错误,则会提示。否则将会进行编译。整个编译时间很长,十几分钟也是要的,所以耐心等待。
上述参考博客后面还有运行生成的二进制文件,太复杂了,我也没管。也没影响使用。
接下来打开终端,输入python,import torch, torch.cuda.is_available()。看到返回的True,内心无比激动
在第一次使用cuda运行Tensor时,需要编译较长的一段时间:a=torch.Tensor([1]), a.cuda()。我一开始以为出bug了,这么简单的Tensor等了好几分钟。后来耐心等待后,可以正常使用。以后每次都挺快的。
============================
后来按照《深度学习入门之pytorch》上教程,安装cudnn后,发现cuda驱动不能使用了。。按照原方法安装,报错为the driver installation is unable to locate the kernel source.根据一些教程和官方说明书,在后面使用'--kernel-source-path' flag来指定kernel source发现仍然不行。
最后采取了如下的方法:首先alt+ctrl+F1进入text mode,sudo service lightdm stop。
接下来卸载之前可能存在的驱动sudo apt-get --purge nvidia*。
接下来的安装指令很关键,但是也只有短短一行:sudo apt-get install nvidia-(此处狂敲tap),寻找想安装的版本
耐心等待之后,sudo service lightdm start,输入密码,成功登录,没遇到任何问题。
原目录下仍然有cuda9.1(我原先安装的版本)的路径,以及新的路径。以防万一对环境变量/etc/profile进行修改。cat /proc/driver/nvidia/version,也有返回值。似乎问题已经解决了!!
这时,见证奇迹的时刻到了:
perfect!
可以愉快地学习pytorch了!