cuda是8.0 ,cudnn是v6.0,python3.x即可,tensorflow-gpu==1.3.0,keras==2.1.0
TensorFlow 1.6:cuDNN 7.0
CUDA toolkit 8.0 and CuDNN v5 TensorFlow 0.11.0
1.阿里云下的gpu服务器是安装了cuda的,但是没有配置环境变量,请配置环境变量
export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64\${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}$
export PATH=/home/devops/anaconda3/bin:$PATH
export CUDA_HOME=/usr/local/cuda
前 2 个(PATH, LD_LIBRARY_PATH) 是 CUDA 官网安装文档中建议的变量。
第 3 个(CUDA_HOME)是 tensorflow-GPU 版本要求的变量。
配置完环境变量之后,一定要更新一下,否则不能立即生效。source一下
检查显卡驱动安装结果 $ nvidia-smi
2、但是阿里云的服务器是没有深度学习库cuDNN,需要自己额外安装:
(1)下载 https://developer.nvidia.com/cudnn
用户名:xx
密码:xxx
因为cuda选的是是8.0 ,这里一定要选cudnn-8.0-linux-x64-v6.0,在linux下可以如下下载:
wget https://developer.download.nvidia.com/compute/machine-learning/cudnn/secure/v6/prod/8.0_20170427/cudnn-8.0-linux-x64-v6.0.tgz?xwS_AnkxqAnHrXANgX8-lohEKhYnVCvO3g1ETLA4_Y21UJsJ3wCWUrjhCWN0iLdiE9pwyyCZZuPBnZMtRI6oiFJOKPcSDu56W3nl7h33TjAMRMadRXNy4VVXkHPxZSjWU2-NLhNJ4xI4kt8rqMcpipa60Q9CuWbaUwp8ojJKwJrWmANUw8zWFZ6GkA82HaFN41RT7ouY
https://developer.download.nvidia.com/compute/machine-learning/cudnn/secure/v5.1/prod_20161129/8.0/cudnn-8.0-linux-x64-v5.1.tgz?FLj2VY6cjZIK_1HD92i9BqMpQZ6GFUxAjCABhbO9Gj8d3WwkRqWPYcORTe4UGSpCPqplsPN1CXXVWm8NY1CROgPcxeEl5Swlv0U6uYFw2n9bY3DoD_DNAaLLSX0xhuQtXt0kAt9EURqnZMEB-ebKjBgcP-tksNyuVqTT-l6p3fjnmH_aCI3Lf4S6RzXL-9Oi5iCon4cFsSA
(2)解压
下载完毕后安装,tar -vxf cudnn-8.0-linux-x64-v6.0.tgz?xwS_AnkxqAnHrXANgX8-lohEKhYnVCvO3g1ETLA4_Y21UJsJ3wCWUrjhCWN0iLdiE9pwyyCZZuPBnZMtRI6oiFJOKPcSDu56W3nl7h33TjAMRMadRXNy4VVXkHPxZSjWU2-NLhNJ4xI4kt8rqMcpipa60Q9CuWbaUwp8ojJKwJrWmANUw8zWFZ6GkA82HaFN41RT7ouY
可以看到目录cuda
(3).把相应的文件拷贝到cuda文件夹:
#这是v6版本
$ sudo cp cuda/include/cudnn.h /usr/local/cuda/include/ $ sudo cp -a cuda/lib64/libcudnn* /usr/local/cuda/lib64/ $ sudo chmod a+r /usr/local/cuda/include/cudnn.h $ sudo chmod a+r /usr/local/cuda/lib64/libcudnn*
#这是v5版本
$ sudo cp cudav5/include/cudnn.h /usr/local/cuda/include/ $ sudo cp -a cudav5/lib64/libcudnn* /usr/local/cuda/lib64/ $ sudo chmod a+r /usr/local/cuda/include/cudnn.h $ sudo chmod a+r /usr/local/cuda/lib64/libcudnn*
3、安装anaconda
1.下载Anaconda:
https://www.anaconda.com/download/#linux
linux下直接运行
wget https://repo.anaconda.com/archive/Anaconda3-5.2.0-Linux-x86_64.sh
2.安装Anaconda:
$ sudo bash Anaconda3-4.2.0-Linux-x86_64.sh
3.添加环境变量:
sudo vi /etc/profile
export PATH=/home/devops/anaconda3/bin:$PATH
source /etc/profile
4.查看版本检验是否安装完成:
conda --version python --version pip --version
nvcc -V
5.选择tensorflow版本:
清华镜像: https://mirrors.tuna.tsinghua.edu.cn/help/tensorflow/
复制pip命令
pip install \ -i https://pypi.tuna.tsinghua.edu.cn/simple/ \ https://mirrors.tuna.tsinghua.edu.cn/tensorflow/linux/gpu/tensorflow_gpu-1.3.0-cp36-cp36m-linux_x86_64.whl
6.检查是否安装成功
python
>>> import tensorflow as tf
>>> tf.test.is_gpu_available()
如果输出False,那就是不能使用,否则是可以使用,会输出GPU信息。
如果输出为false,可以尝试卸载所有tensorflow版本,重新安装
conda uninstall tensorflow 和pip uninstall tensorflow
7.问题:
导入tensorflow错误:FutureWarning:Conversion of the second argument of issubdtype from `float`省略
解决方法:
pip install h5py==2.8.0rc1
8.linux终端关闭后,仍旧后台运行程序
nohup python train.py > train-vgg16pic-2.txt 2>&1 &