实验室新服务器安装tensorflow-gpu,之前安装过一次cpu版本的tensorflow,这次安装gpu版本,出现很多的错误,这里特意将安装tensorflow-gpu的正确方法记录下来,希望对其他人有所帮助。
这里是在服务器非root用户上安装,不适用于linux主机上安装tensorflow的用户,还请注意区分。
实验环境
服务器内核版本:CentOS Linux release 7.6.1810 (Core)
显卡型号:RTX 2082 ti
GCC版本:gcc (GCC) 4.8.5 20150623 (Red Hat 4.8.5-36)
NVIDIA驱动:NVIDIA-SMI 440.44(服务器已经配置好)
安装版本型号:tensorflow-gpu-1.14.0 + cuda10.0 + cudnn7.6
目录
1.Anaconda的安装
2.安装tensorflow-gpu-1.14.0
3.安装cuda10
4.安装cudnn7.6
5.验证安装成功
Anaconda是开源的python包管理器,包含了conda、python、numpy等180多个科学计算包和其依赖。安装tensorflow需要用到conda、pip等命令,Anaconda成为安装tensorflow的不二之选。
Anaconda清华镜像下载地址:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/
首先下载Anaconda,由于Anaconda官网网速较慢,所以(国内)最好使用清华的镜像下载,这里如果用到的python版本是python2.x,则现在Anaconda2.x版本,python3.x就下载python3.x。这里我下载的是Anaconda3-4.1.0
输入命令:
wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-4.1.0-Linux-x86_64.sh
等待下载完成后,输入:
sh Anaconda3-4.1.0-Linux-x86_64.sh
安装过程中,提示输入enter或者yes,都按要求输入即可。这里有一个提示是否将路径写入~/.bashrc文件,输入yes。
安装成功后,激活一下用户环境变量配置:
source ~/.bashrc
这是检验Anaconda安装是否成功,输入命令:
conda -V
输出如下conda版本,则安装成功:
首先需要建立一个tensorflow环境并制定python版本(python3.5或python3.6)均可,输入命令:
conda create -n tensorflow python==3.5
创建好环境或,输入如下命令进入tensorflow环境:
source activate tensorflow
然后安装tensorflow所需要的package,这里也推荐用国内的阿里云镜像,输入命令:
pip install tensorflow-gpu==1.14 -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com
等待下载完成,这里为大家介绍退出tensorflow环境和删除tensorflow环境的命令:
source deactivate #退出tensorflow环境
conda remove -n tensorflow --all #删除tensorflow环境
下载完成后,通过下面命令检验tensorflow是否安装成功:
pip list
安装cuda的版本要与服务器的NVIDIA驱动版本号匹配,输入下面命令查考NVIDIA驱动版本号:
cat /proc/driver/nvidia/version
从输出中看到,我的NVIDA驱动的驱动版本号是440.44,在下表中选取合适的cuda型号
进入cuda10官方网站:https://developer.nvidia.com/cuda-downloads
选择对应的操作系统版本等等与服务器系统匹配:
这时在下面会看到下载链接代码
输入下面命令获得cuda10文件,以xxxx.run的形式:
wget http://developer.download.nvidia.com/compute/cuda/10.2/Prod/local_installers/cuda_10.2.89_440.33.01_linux.run
等到下载完成后,运行.run文件,
sh cuda_10.2.89_440.33.01_linux.run
安装过程中,按提示回答问题,如下图所示:
注意这里不要选择Driver,因为服务器已经有了NVIDIA Driver。另外在是否cuda Sample选项,选择no,如果选yes有可能出现以下错误:
安装完成之后,启动vi,编辑~/.bashrc:
vi ~/.bashrc
添加环境变量,在最后写上代码:
export PATH=$HOME/CUDA/cuda10/bin:$PATH
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$HOME/CUDA/cuda10/lib64/
这里$HOME就是文件路径:/home/你的名字,后面是你安装cuda10时候的路径
然后需要重新激活一下~/.bushrc文件:
source ~/.bashrc
测试cuda安转是否完成,输入:
nvcc -v
若输出cuda的版本号,则说明安装成功。
首先点击进入cudann官网:https://developer.nvidia.com/rdp/cudnn-download,需要注册账号,比较麻烦。
下载后,挤压文件,我是下载的.rar版本,所以输入命令:
tar -zxvf cudnn-10.0-linux-x64-v7.6.5.32.tar
解压过后的操作比之前cuda的要简单,就是一个文件复制操作,输入命令:
cp cudnn/include/cudnn.h CUDA/cuda10/include/
cp cudnn/lib64/libcudnn* CUDA/cuda10/lib64
chmod a+r CUDA/cuda10/include/cudnn/h CUDA/cuda10/lib64/libcudnn*
进入tensorflow环境:
source activate tensorflow
进入python环境后,输入:
import tensorflow
如果没有错误提示,则安装成功,如果出现如下错误:
这个错误是numpy版本过高所导致的,解决问题首先卸载已有的numpy:
pip uninstall numpy
然后安装低版本的numpy(低于numpy1.15即可):
pip install numpy==1.14.5