ubuntu16.04+Tesla P100+cuda+anaconda+cudnn+tensorflow:从0开始安装

笔者的实验室新配置了一台服务器,计划进行深度学习的相关研究。研究第一步自然是进行环境配置,这一步历经了千辛万苦,最终再踩了一万个坑之后配置成功。

服务器配置:

ubuntu16.04+Tesla P100+cuda+anaconda+cudnn+tensorflow:从0开始安装_第1张图片

本篇文章主要分为以下内容:

1. ubuntu16.04系统安装及配置

2. 安装anaconda

3. 手动安装Tesla P100显卡驱动

4. 安装cuda、cudnn及tensorflow

1. ubuntu16.04系统安装及配置

1.1 使用镜像安装方式,可参考(https://jingyan.baidu.com/article/3c48dd348bc005e10be358eb.html)需要注意的是,系统最好下载16.04最新更新版,否则安装完毕之后会更新很多,费时太久。

1.2 安装完毕后需要换更新源,在网上都是通过更改系统文件的方式换源,比较复杂。其实通过“系统设置---》软件更新---》下载处(download from)”换源即可,换成阿里云的源。

1.3 换源完毕后进行系统更新,这时切记不要通过系统设置那里来安装显卡驱动,这样会造成重启后循环登录的情况,即使关闭ubuntu的自带显卡驱动也会出现这样的情况,这时我们需要进入ctrl+alt+f1来手动安装显卡,稍后在第三块进行介绍。

1.4 如果对ubuntu系统没有接触过的同学(比如我),推荐大家阅读一下这个:(http://tieba.baidu.com/p/2543890656?share=9105&fr=share)。里面的很多命令都非常实用,比如下图的命令,用惯了简直爽翻。

ubuntu16.04+Tesla P100+cuda+anaconda+cudnn+tensorflow:从0开始安装_第2张图片

2. 安装anaconda

这里比较简单,从清华镜像下载anaconda安装包,之后在terminal中输入

chmod +x Anaconda3-5.0.1-Linux-x86_64.sh

./Anaconda3-5.0.1-Linux-x86_64.sh

即可。

3. 手动安装Tesla P100显卡驱动

3.1 首先要准备好正确版本的显卡驱动,这个很重要。经过多次尝试之后发现:390.46版本的驱动可以正确支持本显卡。

3.2 显卡驱动的下载也是一个难题,因为英伟达的官网有问题,进入下载界面(https://www.nvidia.cn/content/DriverDownload-March2009/confirmation.php?url=/tesla/390.46/NVIDIA-Linux-x86_64-390.46.run&lang=cn&type=Tesla)之后可能会出现有遮挡而无法点击下载按钮的情况,这时需要进入开发者模式(按f12),然后在网站源码里找到下载链接进行下载。

正常界面应该如下:

ubuntu16.04+Tesla P100+cuda+anaconda+cudnn+tensorflow:从0开始安装_第3张图片

3.3 进行手动安装显卡

首先屏蔽自带驱动

sudo gedit /etc/modprobe.d/blacklist.conf 

在最后一行添加:
blacklist nouveau 
禁用nouveau第三方驱动,保存
执行:
sudo update-initramfs -u
重启后执行:
lsmod | grep nouveau
没有输出即屏蔽好了
到英伟达官网下好对应型号的版本的驱动 一般390.48
 64位

拷贝到 home下(主文件夹下)


先按Ctrl + Alt + F1到控制台,关闭当前图形环境
sudo service lightdm stop

然后进入 home(主文件)


cd /home/用户名

ls

再安装驱动程序


sudo chmod a+x NVIDIA-Linux-x86_64-xxx.run
sudo ./NVIDIA-Linux-x86_64-xxx.run -no-opengl-files

最后重新启动图形环境

sudo service lightdm start

重启电脑,输入nvidia-smi,如果有输出如下:


说明安装正确。

4. 安装cuda、cudnn及tensorflow


进入terminal,输入以下命令即可。

chmod +x cuda_9.1.85_387.26_linux.run

sudo sh cuda_9.1.85_387.26_linux.run


进行如下选择:

Do you accept the previously read EULA?
accept/decline/quit: accept


Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 387.26?
(y)es/(n)o/(q)uit: n


Install the CUDA 9.1 Toolkit?
(y)es/(n)o/(q)uit: y


Enter Toolkit Location
 [ default is /usr/local/cuda-9.1 ]: 


Do you want to install a symbolic link at /usr/local/cuda?
(y)es/(n)o/(q)uit: y


Install the CUDA 9.1 Samples?
(y)es/(n)o/(q)uit: 
Install the CUDA 9.1 Samples?
(y)es/(n)o/(q)uit: y


Enter CUDA Samples Location

 [ default is /home/ubuntu ]:

安装完会提示不完整,在进行以下命令:

conda update -n base conda

安装完之后进行以下命令:

conda install tensorflow-gpu

这时要下载几个比较大的安装包,要保证良好的网速,而笔者经常断网导致安装不成功,这时有两个解决方案,凌晨五点起来安装 or 买一根best网线... 

over,我买网线去了。。。

20180518更新:解决网速问题后,再进行了尝试,终于成功下载了安装包,接着安装了jupyter,可以编程咯!


ubuntu16.04+Tesla P100+cuda+anaconda+cudnn+tensorflow:从0开始安装_第4张图片


总结:最重要的是要保证安装包的版本相互适应,并适合所用显卡和系统,这个也没有规律,只能多试几次。。。

你可能感兴趣的:(ubuntu16.04+Tesla P100+cuda+anaconda+cudnn+tensorflow:从0开始安装)