目前服务器内需要安装深度学习环境,以下是环境配置的一些步骤。一定是明确需要安装的配置。
1.NVIDIA驱动安装
先进行Nvidia驱动的安装。我是选择.run文件进行安装,需要手动下载。
1.1查找对应的驱动
上图是我们所需要的版本,TeslaV100,对应的linux64位,CUDA的版本是10.0(选择10.0的原因是因为主板上对CUDA9.0的驱动不兼容)
下载完成后传送至服务器即可。
我们使用Xshell进行远程控制服务器,界面如下
通过设置如下即可链接
1.2 安装相应的软件
在使用.run文件进行安装时,需要配置GCC和make
否则会出现如下两个错误。
apt install gcc # 安装 apt install make
1.3 安装步骤
卸载原先驱动:
sudo apt-get remove --purge nvidia*
禁用nouveau:
sudo vi /etc/modprobe.d/blacklist.conf
在最后添加,保存即可
blacklist nouveau
之后,执行命令:
sudo update-initramfs -u
但是我这个命令执行后是有问题的,具体有没有用就不知道了。
重启后运行,如果没有输出,则成功(具体是否需要重启可以看看)
lsmod | grep nouveau
安装驱动
给驱动文件赋予权限,并安装
sudo chmod a+x NVIDIA-Linux-x86_64-410.104.run #赋予权限 sudo ./NVIDIA-Linux-x86_64-375.20.run #安装
重启后输入命令
root@ai03:~# nvidia-smi Tue Mar 12 00:40:32 2019 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 410.104 Driver Version: 410.104 CUDA Version: 10.0 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | |===============================+======================+======================| | 0 ***** ****-PCIE... On | 00000000:3D:00.0 Off | 0 | | N/A 30C P0 27W / 250W | 0MiB / *****MiB | 0% Default | +-------------------------------+----------------------+----------------------+ | 1 ***** ****-PCIE... On | 00000000:42:00.0 Off | 0 | | N/A 28C P0 26W / 250W | 0MiB / *****MiB | 0% Default || +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: GPU Memory | | GPU PID Type Process name Usage | |=============================================================================| | No running processes found | +-----------------------------------------------------------------------------+
出现安装信息即可
2.CUDA,Cudnn安装
在驱动安装完成之后可以进行CUDA的安装。
2.1 CUDA下载
根据驱动版本进行选择,
以前下载会出现下载到一半动不了的情况,目前可以直接将链接复制至下载器进行下载
2.2 安装CUDA
由于服务器版本的linux系统没有太多的依赖项的问题,同时也没有个人版中的循环登录的情况,安装还蛮顺畅的。最重要的是注意gcc编译器即内核这两个版本的问题。
禁用Nouveau
首先还是要像装驱动一样限制Nouveau
在之前的 /etc/modprobe.d/blacklist.conf文件中最后面加入保存即可。
options nouveau modeset=0
再输入下面,即可
sudo update-initramfs -u
安装CUDA
直接sh运行文件即可安装
sudo sh cuda_10.0.130_410.48_linux.run
会出现一个很长的说明文档,一直点到结束就好。然后除了不安装CUDA samples外其他都选择yes,最后等待安装完成即可
设置CUDA路径
先使用编辑器编辑.bashrc文件,
vi ~/.bashrc # 编辑
最后中添加下面的代码
export LD_LIBRARY_PATH=/usr/local/cuda-10.0/lib64:/usr/local/cuda-10.0/extras/CUPTI/lib64:$LD_LIBRARY_PATH export CUDA_HOME=/usr/local/cuda-10.0 export PATH=/usr/local/cuda-10.0/bin:$PATH
之后使用source命令即可。
source ~/.bashrc
输入nvcc -V,输出当前信息
nvcc: NVIDIA (R) Cuda compiler driver Copyright (c) 2005-2018 NVIDIA Corporation Built on Sat_Aug_25_21:08:01_CDT_2018 Cuda compilation tools, release 10.0, V10.0.130
2.3 安装cudnn
将cudnn文件移动到/usr/local下,cd到CUDA安装目录下,然后进行解压命令,完成之后就可以了
mv cudnn-10.0-linux-x64-v7.4.2.24.tgz /usr/local cd /usr/local sudo tar -xzvf cudnn-10.0-linux-x64-v7.4.2.24.tgz
2.4 查验指令
cat /proc/driver/nvidia/version #查看Nvidia驱动版本 nvcc -V #查看CUDA版本 cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2 #查看Cudnn版本
3.Nvidia驱动,CUDA卸载
3.1 Nvidia驱动卸载
直接使用当时驱动的安装包进行卸载
sh ./NVIDIA-Linux-x86_64-384.183.run --uninstall
还有另一种方式如下,但是我试过没有效果,nvidia-smi后还是有输出的。
sudo apt-get purge nvidia*
3.2 CUDA卸载
明确cuda的安装路径,我的是/usr/local/cuda-10.0。之后用命令卸载
sudo /usr/local/cuda-10.0/bin/unistall_cuda-10.0.pl
等待完成后,手动删除残余目录/usr/local/cuda-10.0
4 GPU带宽检测
目前安装好GPU后可以使用带宽检测测试安装性能
cd到CUDA的带宽测试目录下
cd /usr/local/cuda/samples/1_Utilities/bandwidthTest/ make ./bandwidthTest
在测试前出现一个Makefile:xxx: recipe for target xxx failed的错误
后来发现问题在g++: No such file or directory
直接安装G++即可完事
apt install g++