tensorflow-gpu-linux安装注意

cuda是8.0 ,cudnn是v6.0,python3.x即可,tensorflow-gpu==1.3.0,keras==2.1.0

TensorFlow 1.6:cuDNN 7.0

CUDA toolkit 8.0 and CuDNN v5 TensorFlow 0.11.0

 

1.阿里云下的gpu服务器是安装了cuda的,但是没有配置环境变量,请配置环境变量

 

export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64\${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}$

export PATH=/home/devops/anaconda3/bin:$PATH

export CUDA_HOME=/usr/local/cuda

 

 

前 2 个(PATH, LD_LIBRARY_PATH) 是 CUDA 官网安装文档中建议的变量。

第 3 个(CUDA_HOME)是 tensorflow-GPU 版本要求的变量。

配置完环境变量之后,一定要更新一下,否则不能立即生效。source一下

检查显卡驱动安装结果 $ nvidia-smi

 

2、但是阿里云的服务器是没有深度学习库cuDNN,需要自己额外安装:

(1)下载 https://developer.nvidia.com/cudnn

用户名:xx

密码:xxx

因为cuda选的是是8.0 ,这里一定要选cudnn-8.0-linux-x64-v6.0,在linux下可以如下下载:

wget https://developer.download.nvidia.com/compute/machine-learning/cudnn/secure/v6/prod/8.0_20170427/cudnn-8.0-linux-x64-v6.0.tgz?xwS_AnkxqAnHrXANgX8-lohEKhYnVCvO3g1ETLA4_Y21UJsJ3wCWUrjhCWN0iLdiE9pwyyCZZuPBnZMtRI6oiFJOKPcSDu56W3nl7h33TjAMRMadRXNy4VVXkHPxZSjWU2-NLhNJ4xI4kt8rqMcpipa60Q9CuWbaUwp8ojJKwJrWmANUw8zWFZ6GkA82HaFN41RT7ouY

 

https://developer.download.nvidia.com/compute/machine-learning/cudnn/secure/v5.1/prod_20161129/8.0/cudnn-8.0-linux-x64-v5.1.tgz?FLj2VY6cjZIK_1HD92i9BqMpQZ6GFUxAjCABhbO9Gj8d3WwkRqWPYcORTe4UGSpCPqplsPN1CXXVWm8NY1CROgPcxeEl5Swlv0U6uYFw2n9bY3DoD_DNAaLLSX0xhuQtXt0kAt9EURqnZMEB-ebKjBgcP-tksNyuVqTT-l6p3fjnmH_aCI3Lf4S6RzXL-9Oi5iCon4cFsSA

(2)解压

下载完毕后安装,tar -vxf cudnn-8.0-linux-x64-v6.0.tgz?xwS_AnkxqAnHrXANgX8-lohEKhYnVCvO3g1ETLA4_Y21UJsJ3wCWUrjhCWN0iLdiE9pwyyCZZuPBnZMtRI6oiFJOKPcSDu56W3nl7h33TjAMRMadRXNy4VVXkHPxZSjWU2-NLhNJ4xI4kt8rqMcpipa60Q9CuWbaUwp8ojJKwJrWmANUw8zWFZ6GkA82HaFN41RT7ouY

可以看到目录cuda

(3).把相应的文件拷贝到cuda文件夹:

#这是v6版本

$ sudo cp cuda/include/cudnn.h /usr/local/cuda/include/ $ sudo cp -a cuda/lib64/libcudnn* /usr/local/cuda/lib64/ $ sudo chmod a+r /usr/local/cuda/include/cudnn.h $ sudo chmod a+r /usr/local/cuda/lib64/libcudnn*

 

#这是v5版本

$ sudo cp cudav5/include/cudnn.h /usr/local/cuda/include/ $ sudo cp -a cudav5/lib64/libcudnn* /usr/local/cuda/lib64/ $ sudo chmod a+r /usr/local/cuda/include/cudnn.h $ sudo chmod a+r /usr/local/cuda/lib64/libcudnn*

 

 

3、安装anaconda

1.下载Anaconda:

https://www.anaconda.com/download/#linux

linux下直接运行

wget https://repo.anaconda.com/archive/Anaconda3-5.2.0-Linux-x86_64.sh

2.安装Anaconda:

$ sudo bash Anaconda3-4.2.0-Linux-x86_64.sh

3.添加环境变量:

sudo vi /etc/profile

export PATH=/home/devops/anaconda3/bin:$PATH

source /etc/profile

 

 

4.查看版本检验是否安装完成:

conda --version python --version pip --version

nvcc -V

 

5.选择tensorflow版本:

清华镜像: https://mirrors.tuna.tsinghua.edu.cn/help/tensorflow/

复制pip命令

pip install \ -i https://pypi.tuna.tsinghua.edu.cn/simple/ \ https://mirrors.tuna.tsinghua.edu.cn/tensorflow/linux/gpu/tensorflow_gpu-1.3.0-cp36-cp36m-linux_x86_64.whl

 

6.检查是否安装成功

python

>>> import tensorflow as tf

>>> tf.test.is_gpu_available()

 

如果输出False,那就是不能使用,否则是可以使用,会输出GPU信息。

如果输出为false,可以尝试卸载所有tensorflow版本,重新安装

conda uninstall tensorflow 和pip uninstall tensorflow

 

 

7.问题:

导入tensorflow错误:FutureWarning:Conversion of the second argument of issubdtype from `float`省略

解决方法:

pip install h5py==2.8.0rc1

 

 

8.linux终端关闭后,仍旧后台运行程序

nohup python train.py > train-vgg16pic-2.txt 2>&1 &

 

你可能感兴趣的:(tensorflow)