最近基于深度学习的图像识别项目需要用到GPU加速,申请了阿里云的GPU服务器,在搭建过程中遇到了一些问题,现在将搭建过程记录
环境: 阿里云GPU服务器Tesla P100
操作系统: Ubuntu 16.04
准备安装包(这个是我用来测试搭建的包,如果想用新版本,请自行下载,对应的包文件会提供下载链接):
Nvidia驱动: NVIDIA-Linux-x86_64-390.46.run
官网下载地址: http://www.nvidia.cn/Download/index.aspx?lang=cn (选好自己的GPU型号之后可以直接下载)
CSDN下载地址:https://download.csdn.net/download/u013092293/10403033
CUDA包:cuda_8.0.61_375.26_linux.run
官网下载地址: https://developer.nvidia.com/cuda-toolkit-archive (下载时需要注册账号)
文件太大发不上来,请自行下载
CUDNN包:cudnn-8.0-linux-x64-v6.0.tgz
官网下载地址: https://developer.nvidia.com/rdp/cudnn-archive(下载时需要注册账号)
CSDN下载地址:https://download.csdn.net/download/u013092293/10403092
本地环境
windows
xshell
开始前注意事项
使用xshell远程申请的GPU服务器(具体使用方法百度),如果连接失败
1.检查登录名和密码
2.检查阿里云GPU服务器的安全组规则(需要开启端口22,在选择协议类型时设置SSH(22),自定义TCP都可以)
3.检查公司的防火墙限制
开始安装
1.更新源
sudo apt-get update
2.python环境为Ubuntu 16.04默认的python环境,默认有python 2.7.12,python 3.5.2,现在我们使用python 3.5.2
3.安装pip3工具
sudo apt-get install python3-pip
4.安装lrzsz,使window可以向linux服务器上传文件
sudo apt-get install lrzsz
5.上传三个包文件
在服务器终端:
rz
弹出框中选择
NVIDIA-Linux-x86_64-390.46.run,cuda_8.0.61_375.26_linux.run,cudnn-8.0-linux-x64-v6.0.tgz
6.安装nvidia驱动
cd到上传文件目录
执行驱动安装
sudo sh ./NVIDIA-Linux-x86_64-390.46.run
挂载Nvidia驱动
modprobe nvidia
查看nvidia是否安装成功
nvidia-smi
7.安装cuda
cd到上传目录
sudo sh ./cuda_8.0.61_375.26_linux.run
开始执行后会输出很多信息,使用空格翻页,到底后出现几个提问,按顺序填写
Do you accept the previously read EULA? accept
Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 xxx.xx? n
Install the CUDA 8.0 Toolkit? y
Enter Toolkit Location
[ default is /usr/local/cuda-8.0 ]: 回车
Do you want to install a symbolic link at /usr/local/cuda? y --(生成cuda快捷方式)
Install the CUDA 8.0 Samples? y --(安装CUDA8.0的例子,可以选择不安装)
Enter CUDA Samples Location
[ default is /root ]: 回车
8. 设置CUDA环境变量
sudo vim ~/.bashrc
按G到最后一行,按i开始进行插入
export LD_LIBRARY_PATH="$LD_LIBRARY_PATH:/usr/local/cuda-8.0/lib64:/usr/local/cuda-8.0/extras/CUPTI/lib64"
export CUDA_HOME=/usr/local/cuda-8.0
esc --> :wq
保存退出
配置立即生效
source ~/.bashrc
9. 安装CUDNN(其实为解压拷贝)
cd到文件上传目录
解压cudnn
tar -zxvf cudnn-8.0-linux-x64-v6.0.tgz
开始拷贝(如果都按上述步骤来的话,下面的命令可直接运行)
sudo cp cuda/include/cudnn.h /usr/local/cuda-8.0/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda-8.0/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda-8.0/lib64/libcudnn*
10.安装TensorFlow GPU版本
当前选择为tensorflow 1.3版本,
方法一:网好的话使用
pip3 install tensorflow-gpu==1.3
方法二:网不好的话,提供清华镜像站地址:https://mirrors.tuna.tsinghua.edu.cn/tensorflow/linux/gpu/
下载下whl文件后安装:
pip3 install tensorflow_gpu-1.3.0rc2-cp35-cp35m-linux_x86_64.whl
安装过程中可能会因为网络原因出现中断,多安装几次
11.安装完成之后
$ python3
> import tensorflow
>
不报错,即为安装成功