笔者的实验室新配置了一台服务器,计划进行深度学习的相关研究。研究第一步自然是进行环境配置,这一步历经了千辛万苦,最终再踩了一万个坑之后配置成功。
服务器配置:
本篇文章主要分为以下内容:
1. ubuntu16.04系统安装及配置
2. 安装anaconda
3. 手动安装Tesla P100显卡驱动
4. 安装cuda、cudnn及tensorflow
1. ubuntu16.04系统安装及配置
1.1 使用镜像安装方式,可参考(https://jingyan.baidu.com/article/3c48dd348bc005e10be358eb.html)需要注意的是,系统最好下载16.04最新更新版,否则安装完毕之后会更新很多,费时太久。
1.2 安装完毕后需要换更新源,在网上都是通过更改系统文件的方式换源,比较复杂。其实通过“系统设置---》软件更新---》下载处(download from)”换源即可,换成阿里云的源。
1.3 换源完毕后进行系统更新,这时切记不要通过系统设置那里来安装显卡驱动,这样会造成重启后循环登录的情况,即使关闭ubuntu的自带显卡驱动也会出现这样的情况,这时我们需要进入ctrl+alt+f1来手动安装显卡,稍后在第三块进行介绍。
1.4 如果对ubuntu系统没有接触过的同学(比如我),推荐大家阅读一下这个:(http://tieba.baidu.com/p/2543890656?share=9105&fr=share)。里面的很多命令都非常实用,比如下图的命令,用惯了简直爽翻。
2. 安装anaconda
这里比较简单,从清华镜像下载anaconda安装包,之后在terminal中输入
chmod +x Anaconda3-5.0.1-Linux-x86_64.sh
./Anaconda3-5.0.1-Linux-x86_64.sh
即可。
3. 手动安装Tesla P100显卡驱动
3.1 首先要准备好正确版本的显卡驱动,这个很重要。经过多次尝试之后发现:390.46版本的驱动可以正确支持本显卡。
3.2 显卡驱动的下载也是一个难题,因为英伟达的官网有问题,进入下载界面(https://www.nvidia.cn/content/DriverDownload-March2009/confirmation.php?url=/tesla/390.46/NVIDIA-Linux-x86_64-390.46.run&lang=cn&type=Tesla)之后可能会出现有遮挡而无法点击下载按钮的情况,这时需要进入开发者模式(按f12),然后在网站源码里找到下载链接进行下载。
正常界面应该如下:
3.3 进行手动安装显卡
首先屏蔽自带驱动
sudo gedit /etc/modprobe.d/blacklist.conf
在最后一行添加:拷贝到 home下(主文件夹下)
然后进入 home(主文件)
cd /home/用户名
ls再安装驱动程序
重启电脑,输入nvidia-smi,如果有输出如下:
说明安装正确。
4. 安装cuda、cudnn及tensorflow
进入terminal,输入以下命令即可。
chmod +x cuda_9.1.85_387.26_linux.run
sudo sh cuda_9.1.85_387.26_linux.run
进行如下选择:
Do you accept the previously read EULA?
accept/decline/quit: accept
Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 387.26?
(y)es/(n)o/(q)uit: n
Install the CUDA 9.1 Toolkit?
(y)es/(n)o/(q)uit: y
Enter Toolkit Location
[ default is /usr/local/cuda-9.1 ]:
Do you want to install a symbolic link at /usr/local/cuda?
(y)es/(n)o/(q)uit: y
Install the CUDA 9.1 Samples?
(y)es/(n)o/(q)uit:
Install the CUDA 9.1 Samples?
(y)es/(n)o/(q)uit: y
Enter CUDA Samples Location
[ default is /home/ubuntu ]:
安装完会提示不完整,在进行以下命令:
conda update -n base conda
安装完之后进行以下命令:
conda install tensorflow-gpu
这时要下载几个比较大的安装包,要保证良好的网速,而笔者经常断网导致安装不成功,这时有两个解决方案,凌晨五点起来安装 or 买一根best网线...
over,我买网线去了。。。
20180518更新:解决网速问题后,再进行了尝试,终于成功下载了安装包,接着安装了jupyter,可以编程咯!
总结:最重要的是要保证安装包的版本相互适应,并适合所用显卡和系统,这个也没有规律,只能多试几次。。。