ubuntu18.10 + RTX2080Ti + CUDA10.0 + cuDNN7.5.0 + Anaconda(conda 4.5.12) + TensorFlow-gpu 的安装

一、硬件环境准备                                                                                                                            点击此处返回总目录

二、安装过程

三、常用的查看版本的命令

 

 

配置:

服务器:联想TS430

linux:ubuntu18.10

GPU:RTX2080Ti

CUDA10.0

cuDNN7.5.0

Anaconda:conda 4.5.12

Tensorflow-gpu:1.13.1

 

软件列表:

NVIDIA-Linux-x86_64-418.43.run

cuda_10.0.130_410.48_ubuntu18.run

cudnn-10.0-linux-x64-v7.5.0.56.tgz

Anaconda3-2018.12-Linux-x86_64.sh

 

 

一、硬件环境准备

1. GPU为RTX2080Ti。

为最新款,是18年最好的GPU了,京东价9999一个。买来之后,只有一个GPU、一个转接头和两本小册子,如下:

 

              ubuntu18.10 + RTX2080Ti + CUDA10.0 + cuDNN7.5.0 + Anaconda(conda 4.5.12) + TensorFlow-gpu 的安装_第1张图片

 

 

GPU长这样:

 

ubuntu18.10 + RTX2080Ti + CUDA10.0 + cuDNN7.5.0 + Anaconda(conda 4.5.12) + TensorFlow-gpu 的安装_第2张图片    ubuntu18.10 + RTX2080Ti + CUDA10.0 + cuDNN7.5.0 + Anaconda(conda 4.5.12) + TensorFlow-gpu 的安装_第3张图片   ubuntu18.10 + RTX2080Ti + CUDA10.0 + cuDNN7.5.0 + Anaconda(conda 4.5.12) + TensorFlow-gpu 的安装_第4张图片

 

注意:买的时候是不带电源线的。要么跟供应商说,让他送电源线;要么自己去买电源线。电源线根据每个服务器的型号不同而不同,买之前要先看好。

 

2. 服务器。

我从实验室找了两台服务器,第一台是联想TS430。

 

ubuntu18.10 + RTX2080Ti + CUDA10.0 + cuDNN7.5.0 + Anaconda(conda 4.5.12) + TensorFlow-gpu 的安装_第5张图片   ubuntu18.10 + RTX2080Ti + CUDA10.0 + cuDNN7.5.0 + Anaconda(conda 4.5.12) + TensorFlow-gpu 的安装_第6张图片

 

联想T430电源是SATA的,所以我买了2根下面的线。接通之后能正常使用。

ubuntu18.10 + RTX2080Ti + CUDA10.0 + cuDNN7.5.0 + Anaconda(conda 4.5.12) + TensorFlow-gpu 的安装_第7张图片

插上之后就可以开机,然后接上显示器看了。

需要注意的是显示器要插到GPU的口上,不能插在以前的口上了。

 

 

二、安装过程(还没写完,大家先不要参考)

 

步骤1:安装操作系统

略。

 

 

步骤2:安装显卡驱动

到官网上下载自己GPU对应版本的显卡驱动。

我下载的是NVIDIA-Linux-x86_64-418.43.run,有101M。

 

 

 

 

 

 

 

步骤3:安装CUDA

本人下载的是cuda_10.0.130_410.48_ubuntu18.run。之前下载过deb格式的。但是报以下错误:

ubuntu18.10 + RTX2080Ti + CUDA10.0 + cuDNN7.5.0 + Anaconda(conda 4.5.12) + TensorFlow-gpu 的安装_第8张图片

原因要么是dpkg命令有问题,要么就是deb文件有问题。后来改成用.run文件,就没问题了。

 

 

下载完成后,执行:

sudo sh cuda_10.0.130_410.48_linux.run

 

执行此会出现 1%信息,此时长按回车键让此百分比增长,直到100%,然后按照提示操作即可。

先输入 accept 。又一个是选择是否安装 nvidia 驱动(大概是第3个),要输入“n”,因为已经安装过了。其他的选择则都输入“y”确认安装或确认默认路径安装即可。
 

 

【这一步可能遇到的问题】

在安装过程中,我遇到了一个问题,装不下去了。

后来查了一下,是因为gcc版本太高,用了以下方法解决的(其中还忘了更新g++,导致后面又出现了问题):

ubuntu18.10 + RTX2080Ti + CUDA10.0 + cuDNN7.5.0 + Anaconda(conda 4.5.12) + TensorFlow-gpu 的安装_第9张图片

更改了gcc的版本之后,再运行.run文件就没问题了。

 

 

安装完之后,修改环境变量:

vim ~/.bashrc

增加以下几句话:

       

然后使环境变量生效:

source ~/.bashrc

 

 

这样cuda就安装好了,此时需要验证以下有没有安装成功:


 

 

 

 

 

问题一:

ubuntu18.10 + RTX2080Ti + CUDA10.0 + cuDNN7.5.0 + Anaconda(conda 4.5.12) + TensorFlow-gpu 的安装_第10张图片

 

【解决】

找不到g++编译器。

update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-5 50

ubuntu18.10 + RTX2080Ti + CUDA10.0 + cuDNN7.5.0 + Anaconda(conda 4.5.12) + TensorFlow-gpu 的安装_第11张图片

 

 

 

 

问题二:

当执行他的例子时,遇到下面的问题:

       ubuntu18.10 + RTX2080Ti + CUDA10.0 + cuDNN7.5.0 + Anaconda(conda 4.5.12) + TensorFlow-gpu 的安装_第12张图片

而且,使用nvidia-smi命令也报错:

       

说是驱动的版本跟不上CUDA的版本,但是我查了一下,版本没有问题。

 

【分析】

CUDA driver version(驱动版本):就是NVIDIA GPU的驱动程序版本。CUDA runtime version(运行时版本):是在python中安装的cudatoolkit和cudnn程序包的版本。说是驱动的版本跟不上CUDA的版本。

一般来说,应该先查一下两者的版本是否匹配,然后再解决。但是我查了一下,版本没有问题,网上说的重启电脑的方法也不好使。

 

【解决方法】

先卸载掉nvidia驱动。然后再安装一次。

 

卸载的命令为:

sudo nvidia-uninstall

 

 

再次安装之后,就能正确显示了:

ubuntu18.10 + RTX2080Ti + CUDA10.0 + cuDNN7.5.0 + Anaconda(conda 4.5.12) + TensorFlow-gpu 的安装_第13张图片

 

ubuntu18.10 + RTX2080Ti + CUDA10.0 + cuDNN7.5.0 + Anaconda(conda 4.5.12) + TensorFlow-gpu 的安装_第14张图片

 

 

 

 

 

步骤4:安装cuDNN

首先下载cuDNN,要根据cuda的版本下载对应的cuDNN。

 

tar -xzvf cudnn-10.0-linux-x64-v7.3.1.20.tgz
$ sudo cp cuda/include/cudnn.h /usr/local/cuda/include 
$ sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64 
$ sudo chmod +r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*
 

 

 

步骤5:安装anaconda

 

安装完之后新建自己的环境:

conda create -n liupc python=3                   //创建自己的环境

conda activate liupc                                     //进入环境

conda install numpy

 

 

 

步骤6:安装tensorflow

conda activate liupc                               //先进入自己的环境,在自己的环境下安装TensorFlow,供自己用。

输入以下命令:

pip install tensorflow-gpu==1.13.1

 

ubuntu18.10 + RTX2080Ti + CUDA10.0 + cuDNN7.5.0 + Anaconda(conda 4.5.12) + TensorFlow-gpu 的安装_第15张图片

ubuntu18.10 + RTX2080Ti + CUDA10.0 + cuDNN7.5.0 + Anaconda(conda 4.5.12) + TensorFlow-gpu 的安装_第16张图片

 

注意:参考网址上说1.13.1版本的tensorflow-gpu需要最新的numpy 1.16.2作为支持。我查了一下我的numpy已经是1.16.2了,所以不需要更新。

 

测试TensorFlow:

python

>>> import tensorflow as tf

>>> print(tf.__version__)

但是我这里报错:

ubuntu18.10 + RTX2080Ti + CUDA10.0 + cuDNN7.5.0 + Anaconda(conda 4.5.12) + TensorFlow-gpu 的安装_第17张图片

 

分析:找不到libcublas.so.10.0,于是我到/usr/local/cuda-10.0/lib64下查看,发现有这个文件:

ubuntu18.10 + RTX2080Ti + CUDA10.0 + cuDNN7.5.0 + Anaconda(conda 4.5.12) + TensorFlow-gpu 的安装_第18张图片

 

然后我想到可能的原因是环境变量没有配置。因为只配置了root用户的环境变量,没有配置目前这个用户(我的是用emcas用户登录的)的环境变量。

 

解决方法:

cd                                     

vim .bashrc

增加以下三句话:

export LD_LIBRARY_PATH=/usr/local/cuda/lib64$LD_LIBRARY_PATH

export CUDA_HOME=/usr/local/cuda

export PATH=/usr/local/cuda-10.0/bin:$PATH

source .bashrc  

 

再次查看TensorFlow版本:

安装成功。

 

 

 

 

三、常见的查看命令

1. cat /proc/driver/nvidia/version  或 nvidia-smi          //查看驱动版本。【例1】

2. nvcc -V                                                                   //查看cuda版本。【例2】。这个好像不准。

3. cat /usr/local/cuda/version.txt                                 //查看cuda版本。【例3】。这个是对的。

 

例1:

 

例2:

 

例3:

 

 

 

 

 

参考&感谢:

https://blog.csdn.net/tianyangqiao/article/details/88284025

 

你可能感兴趣的:(17,深度学习)