深度学习环境配置

目前服务器内需要安装深度学习环境,以下是环境配置的一些步骤。一定是明确需要安装的配置。

1.NVIDIA驱动安装

先进行Nvidia驱动的安装。我是选择.run文件进行安装,需要手动下载。

1.1查找对应的驱动

深度学习环境配置_第1张图片

上图是我们所需要的版本,TeslaV100,对应的linux64位,CUDA的版本是10.0(选择10.0的原因是因为主板上对CUDA9.0的驱动不兼容)

深度学习环境配置_第2张图片

下载完成后传送至服务器即可。

我们使用Xshell进行远程控制服务器,界面如下

深度学习环境配置_第3张图片

通过设置如下即可链接

深度学习环境配置_第4张图片

1.2 安装相应的软件

在使用.run文件进行安装时,需要配置GCC和make

深度学习环境配置_第5张图片

深度学习环境配置_第6张图片

否则会出现如下两个错误。

apt install gcc                 # 安装
apt install make

1.3 安装步骤

卸载原先驱动:

sudo apt-get remove --purge nvidia*

禁用nouveau:

sudo vi /etc/modprobe.d/blacklist.conf

在最后添加,保存即可

blacklist nouveau

之后,执行命令:

sudo update-initramfs -u

但是我这个命令执行后是有问题的,具体有没有用就不知道了。

重启后运行,如果没有输出,则成功(具体是否需要重启可以看看)

lsmod | grep nouveau

安装驱动

给驱动文件赋予权限,并安装

sudo chmod a+x NVIDIA-Linux-x86_64-410.104.run  #赋予权限
sudo ./NVIDIA-Linux-x86_64-375.20.run           #安装

重启后输入命令

root@ai03:~# nvidia-smi
Tue Mar 12 00:40:32 2019       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 410.104      Driver Version: 410.104      CUDA Version: 10.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  ***** ****-PCIE...  On   | 00000000:3D:00.0 Off |                    0 |
| N/A   30C    P0    27W / 250W |      0MiB / *****MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  ***** ****-PCIE...  On   | 00000000:42:00.0 Off |                    0 |
| N/A   28C    P0    26W / 250W |      0MiB / *****MiB |      0%      Default ||
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+
​

出现安装信息即可

2.CUDA,Cudnn安装

在驱动安装完成之后可以进行CUDA的安装。

2.1 CUDA下载

根据驱动版本进行选择,

 

以前下载会出现下载到一半动不了的情况,目前可以直接将链接复制至下载器进行下载

2.2 安装CUDA

由于服务器版本的linux系统没有太多的依赖项的问题,同时也没有个人版中的循环登录的情况,安装还蛮顺畅的。最重要的是注意gcc编译器即内核这两个版本的问题。

禁用Nouveau

首先还是要像装驱动一样限制Nouveau

在之前的 /etc/modprobe.d/blacklist.conf文件中最后面加入保存即可。

options nouveau modeset=0

再输入下面,即可

sudo update-initramfs -u

安装CUDA

直接sh运行文件即可安装

sudo sh cuda_10.0.130_410.48_linux.run

会出现一个很长的说明文档,一直点到结束就好。然后除了不安装CUDA samples外其他都选择yes,最后等待安装完成即可

设置CUDA路径

先使用编辑器编辑.bashrc文件,

vi ~/.bashrc # 编辑

最后中添加下面的代码

export LD_LIBRARY_PATH=/usr/local/cuda-10.0/lib64:/usr/local/cuda-10.0/extras/CUPTI/lib64:$LD_LIBRARY_PATH
export CUDA_HOME=/usr/local/cuda-10.0
export PATH=/usr/local/cuda-10.0/bin:$PATH

之后使用source命令即可。

source ~/.bashrc

输入nvcc -V,输出当前信息

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2018 NVIDIA Corporation
Built on Sat_Aug_25_21:08:01_CDT_2018
Cuda compilation tools, release 10.0, V10.0.130

2.3 安装cudnn

将cudnn文件移动到/usr/local下,cd到CUDA安装目录下,然后进行解压命令,完成之后就可以了

mv cudnn-10.0-linux-x64-v7.4.2.24.tgz /usr/local
cd /usr/local
sudo tar -xzvf cudnn-10.0-linux-x64-v7.4.2.24.tgz

2.4 查验指令

cat /proc/driver/nvidia/version     #查看Nvidia驱动版本
nvcc -V                             #查看CUDA版本
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2 #查看Cudnn版本

3.Nvidia驱动,CUDA卸载

3.1 Nvidia驱动卸载

直接使用当时驱动的安装包进行卸载

sh ./NVIDIA-Linux-x86_64-384.183.run --uninstall

还有另一种方式如下,但是我试过没有效果,nvidia-smi后还是有输出的。

sudo apt-get purge nvidia*

3.2 CUDA卸载

明确cuda的安装路径,我的是/usr/local/cuda-10.0。之后用命令卸载

sudo /usr/local/cuda-10.0/bin/unistall_cuda-10.0.pl

等待完成后,手动删除残余目录/usr/local/cuda-10.0

4 GPU带宽检测

目前安装好GPU后可以使用带宽检测测试安装性能

cd到CUDA的带宽测试目录下

cd /usr/local/cuda/samples/1_Utilities/bandwidthTest/
make
./bandwidthTest

深度学习环境配置_第7张图片

在测试前出现一个Makefile:xxx: recipe for target xxx failed的错误

后来发现问题在g++: No such file or directory

直接安装G++即可完事

apt install g++

 

你可能感兴趣的:(深度学习环境配置)