一、硬件环境准备 点击此处返回总目录 二、安装过程 三、常用的查看版本的命令
配置: 服务器:联想TS430 linux:ubuntu18.10 GPU:RTX2080Ti CUDA10.0 cuDNN7.5.0 Anaconda:conda 4.5.12 Tensorflow-gpu:1.13.1
软件列表: NVIDIA-Linux-x86_64-418.43.run cuda_10.0.130_410.48_ubuntu18.run cudnn-10.0-linux-x64-v7.5.0.56.tgz Anaconda3-2018.12-Linux-x86_64.sh
一、硬件环境准备 1. GPU为RTX2080Ti。 为最新款,是18年最好的GPU了,京东价9999一个。买来之后,只有一个GPU、一个转接头和两本小册子,如下:
GPU长这样:
注意:买的时候是不带电源线的。要么跟供应商说,让他送电源线;要么自己去买电源线。电源线根据每个服务器的型号不同而不同,买之前要先看好。
2. 服务器。 我从实验室找了两台服务器,第一台是联想TS430。
联想T430电源是SATA的,所以我买了2根下面的线。接通之后能正常使用。 插上之后就可以开机,然后接上显示器看了。 需要注意的是显示器要插到GPU的口上,不能插在以前的口上了。
二、安装过程(还没写完,大家先不要参考)
步骤1:安装操作系统 略。
步骤2:安装显卡驱动 到官网上下载自己GPU对应版本的显卡驱动。 我下载的是NVIDIA-Linux-x86_64-418.43.run,有101M。
步骤3:安装CUDA 本人下载的是cuda_10.0.130_410.48_ubuntu18.run。之前下载过deb格式的。但是报以下错误: 原因要么是dpkg命令有问题,要么就是deb文件有问题。后来改成用.run文件,就没问题了。
下载完成后,执行: sudo sh cuda_10.0.130_410.48_linux.run
执行此会出现 1%信息,此时长按回车键让此百分比增长,直到100%,然后按照提示操作即可。 先输入 accept 。又一个是选择是否安装 nvidia 驱动(大概是第3个),要输入“n”,因为已经安装过了。其他的选择则都输入“y”确认安装或确认默认路径安装即可。
【这一步可能遇到的问题】 在安装过程中,我遇到了一个问题,装不下去了。 后来查了一下,是因为gcc版本太高,用了以下方法解决的(其中还忘了更新g++,导致后面又出现了问题): 更改了gcc的版本之后,再运行.run文件就没问题了。
安装完之后,修改环境变量: vim ~/.bashrc 增加以下几句话: 然后使环境变量生效: source ~/.bashrc
这样cuda就安装好了,此时需要验证以下有没有安装成功:
问题一:
【解决】 找不到g++编译器。 update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-5 50
问题二: 当执行他的例子时,遇到下面的问题: 而且,使用nvidia-smi命令也报错: 说是驱动的版本跟不上CUDA的版本,但是我查了一下,版本没有问题。
【分析】 CUDA driver version(驱动版本):就是NVIDIA GPU的驱动程序版本。CUDA runtime version(运行时版本):是在python中安装的cudatoolkit和cudnn程序包的版本。说是驱动的版本跟不上CUDA的版本。 一般来说,应该先查一下两者的版本是否匹配,然后再解决。但是我查了一下,版本没有问题,网上说的重启电脑的方法也不好使。
【解决方法】 先卸载掉nvidia驱动。然后再安装一次。
卸载的命令为: sudo nvidia-uninstall
再次安装之后,就能正确显示了:
步骤4:安装cuDNN 首先下载cuDNN,要根据cuda的版本下载对应的cuDNN。
tar -xzvf cudnn-10.0-linux-x64-v7.3.1.20.tgz
步骤5:安装anaconda 略
安装完之后新建自己的环境: conda create -n liupc python=3 //创建自己的环境 conda activate liupc //进入环境 conda install numpy
步骤6:安装tensorflow conda activate liupc //先进入自己的环境,在自己的环境下安装TensorFlow,供自己用。 输入以下命令: pip install tensorflow-gpu==1.13.1
注意:参考网址上说1.13.1版本的tensorflow-gpu需要最新的numpy 1.16.2作为支持。我查了一下我的numpy已经是1.16.2了,所以不需要更新。
测试TensorFlow:
但是我这里报错:
分析:找不到libcublas.so.10.0,于是我到/usr/local/cuda-10.0/lib64下查看,发现有这个文件:
然后我想到可能的原因是环境变量没有配置。因为只配置了root用户的环境变量,没有配置目前这个用户(我的是用emcas用户登录的)的环境变量。
解决方法: cd vim .bashrc 增加以下三句话:
source .bashrc
再次查看TensorFlow版本: 安装成功。
三、常见的查看命令 1. cat /proc/driver/nvidia/version 或 nvidia-smi //查看驱动版本。【例1】 2. nvcc -V //查看cuda版本。【例2】。这个好像不准。 3. cat /usr/local/cuda/version.txt //查看cuda版本。【例3】。这个是对的。
例1:
例2:
例3:
参考&感谢: https://blog.csdn.net/tianyangqiao/article/details/88284025 |