Deepin V20 Beta + CUDA10.1+CUDNN7.6.5+PyTorch1.6.0 搭建

Deepin V20 Beta + CUDA10.1+CUDNN7.6.5+PyTorch1.6.0

    • 坑的介绍
    • 精要步骤
      • 1、关掉secure boot
      • 2、下载显卡闭驱动,禁用nouveau开源驱动
      • 3、开始NVIDIA安装过程。
      • 4、显卡驱动安装选项
      • 5、确认显卡驱动是否安装上。
      • 6、配置显卡
      • 7、安装CUDA10.1
      • 8、安装CUDNN 7.6.5,实际7.6.3~7.6.5都可以!
      • 9、安装anaconda3
      • 10、安装GPU版pytorch
      • 11、测试pytorch打GPU版本安装成功?
      • 12、唠叨一下感受

对于一个机械专业并且大学才碰电脑的朋友,Linux是一个敬畏的存在,github搞多了免不了碰到Linux,g++,makefile。为此,要装一个双系统,挑了deepin v20,网上有不少写安装CUDA的教程,有一些很坑,有的单词也拼错了。通过比较和对比,一天的反复测试,总算爬出坑了。不知道其它Deepin版本如何安装,本文仅针对Deepin V20 Beta,内核版本为5.4.50,gcc版本8.3.0,CPU为不带核显9700KF,显卡是1070。

Deepin V20 Beta + CUDA10.1+CUDNN7.6.5+PyTorch1.6.0 搭建_第1张图片

坑的介绍

第1个坑是一定要关掉BIOS上的secure boot;
第2个坑就是驱动下载一定要下载匹配的nvidia驱动,我看到有帖子说不要太新,其实是很多针对deepin 15的。如果你装CUDA10.1,我此次是装的长版本,最新的,版本号是450.57,我装过435.21的短版本,失败了;
第3个坑是一定要先安装显卡驱动,再用CUDA10.1的run包安装CUDA库,不要用CUDA的驱动装显卡驱动!!我将CUDA安装至/var/local/cuda-10.1,最后解压CUDNN压缩包并复制至cuda-10.1中,设置好环境变量就可以调用了;
第4个坑是我安装了驱动,然后重启后再也进不了图形界面,黑屏!这个在步骤4有解决方案。

精要步骤

1、关掉secure boot

参考网址:https://blog.csdn.net/generalsong/article/details/91042524

2、下载显卡闭驱动,禁用nouveau开源驱动

参考网址:https://blog.csdn.net/m0_37148002/article/details/107131776
注意了,上述的网址中第3步中sudo sh n.run不要先执行,其它都没有问题。要想从超级终端中返回图形界面,可以打sudo service lightdm start

3、开始NVIDIA安装过程。

参考以下https://blog.csdn.net/m0_37148002/article/details/107131776,第3步,但这里有错误!!一定要加后缀!

sudo sh n.run -no-x-check -no-nouveau-check -no-opengl-files

//只有禁用opengl这样安装才不会出现循环登陆的问题

-no-x-check:安装驱动时关闭X服务
-no-nouveau-check:安装驱动时禁用nouveau
-no-opengl-files:只安装驱动文件,不安装OpenGL文件(这个必须带上!!)

4、显卡驱动安装选项

会提示选项里,只有yes和no的选yes ,有3个选项的选择中间那个over,包括32位的都选了yes
The distribution-provided pre-install script failed! Are you sure you want to continue? 选择 yes 继续。
Would you like to register the kernel module souces with DKMS? This will allow DKMS to automatically build a new module, if you install a different kernel later? 选择 yes继续。这里我选过no,失败了。
Nvidia’s 32-bit compatibility libraries? 选择 yes 继续。
Would you like to run the nvidia-xconfigutility to automatically update your x configuration so that the NVIDIA x driver will be used when you restart x? Any pre-existing x confile will be backed up. 选择 Yes 继续
这些选项如果选择错误可能会导致安装失败,没关系,只要前面不出错,多尝试几次就好,可以卸载干净显卡驱动后重新再装本驱动。

5、确认显卡驱动是否安装上。

安装完后,千万别重启,在那个黑色图形界面,用sudo权限完成以下操作
挂载Nvidia驱动:

modprobe nvidia

记得没反应,应该有用

检查驱动是否安装成功:

nvidia-smi

如果出现如下提示显卡信息表,则说明安装成功:
Deepin V20 Beta + CUDA10.1+CUDNN7.6.5+PyTorch1.6.0 搭建_第2张图片
最后重启一下

sudo reboot

6、配置显卡

继续参考的是https://blog.csdn.net/m0_37148002/article/details/107131776,第4步,单显卡的PCI好像都是PCI:1:0:0,可通过ls命令查看配置文件,我这里没有备份,直接用原来的基础上修改。

7、安装CUDA10.1

完成显卡驱动后,已经完成了70%,CUDA本质上是一个包,添加环境变量就可以调用,可以rm掉再重装。deepin V20Beta,对应CUDA下载ubuntu18.04,好像gcc是8版本,比较接近,不下载18.10是因为2020.9.3这天,还没有CUDNN对应的ubuntu 18.10,只有18.04。
Deepin V20 Beta + CUDA10.1+CUDNN7.6.5+PyTorch1.6.0 搭建_第3张图片

参考:https://blog.csdn.net/Zhang_Pro/article/details/107126641,我没有管gcc,因为目前只用python调用。注意这里第3步不要执行!按以下方法做。

sudo bash cuda_10.1.105_418.39_linux.run

有弹出界面提示[X]装驱动,不想装的去掉X,驱动因为前面装了,这里一定要取消,我就只装了第2个库,samples没有装。

sudo gedit ~/.bashrc

PS: 后来我又安装cuda10.0,并没有弹出以上界面,我用空格键将安装协议按到底,也有说按q也能退出,然后点击accept,同样,CUDA10.0的自带驱动不要装,其它的可以装,但最终还是失败了。
sudo bash cuda_10.0.130_410.48_linux.run --override
cuda版本不同,安装方法有出入,因此,最好找相同的教程,或者多试几次。

底下添加环境:

CUDA_HOME=/usr/local/cuda-10.1
export PATH=$PATH:$CUDA_HOME/bin/
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$CUDA_HOME/lib64
#更新环境:
source ~/.bashrc

8、安装CUDNN 7.6.5,实际7.6.3~7.6.5都可以!

tar -zxvf cudnn-10.1-linux-x64-v7.6.5.32.tgz
#会显示压缩包中的内容,h头文件,so库

sudo cp -P cuda/lib64/libcudnn* /usr/local/cuda-10.1/lib64/
sudo cp  cuda/include/cudnn.h /usr/local/cuda-10.1/include/

#为所有用户设置读取权限
sudo chmod a+r /usr/local/cuda-10.1/include/cudnn.h sudo chmod a+r /usr/local/cuda-10.1/lib64/libcudnn*

#为所有用户设置读取权限
sudo chmod a+r /usr/local/cuda-10.1/include/cudnn.h
sudo chmod a+r /usr/local/cuda-10.1/lib64/libcudnn*

9、安装anaconda3

Linux 2020.2的python版本是3.7.3,anaconda官方从来不给小版本号,要自己装了才知道,不爽。windows下的2020.2是python3.7.6。知道了,linux是后娘养的。
我将anacond3安装在主目录下,并行了初始化。

#更新一下
source ~/.bashrc 

anaconda3已经在~/.bashrc下了,可以用gedit检查一下,如果没有在,麻烦手动添加。

10、安装GPU版pytorch

当前稳定版本,pytorch 1.6.0,CUDA为10.1
更新了清华源,然后用conda install pytorch torchvision cudatoolkit=10.1更新,发现只会去下载pytorch 1.3.0,我在windows下安装很稳,于是采用以下命令pip完美下载,速度蛮快

pip install torch==1.6.0+cu101 torchvision==0.7.0+cu101 -f https://download.pytorch.org/whl/torch_stable.html -i http://mirrors.aliyun.com/pypi/simple/

11、测试pytorch打GPU版本安装成功?

import torch
print(torch.cuda.is_available())

返回True即成功

12、唠叨一下感受

之前使用vmware15.5 pro装了deepin20,肉眼可见卡。还是需要双系统,因为与win硬盘分区格式不同,所以两个系统的资源是隔离的。我一直用的是五笔混合输入法,想问搜狗啥时五笔能出Linux版本,现在百度输入法还可以。吐槽一下讯飞的输入法,居然不能用shift切换中英文。最后感谢一下以上提供教程链接的朋友们,不管有没有错误,respect!上面若存在一下错误,也请批评指正。

你可能感兴趣的:(PCL深度学习,nvidia,linux,cuda)