Ubuntu系统搭建深度学习服务器

Ubuntu系统搭建深度学习服务器

一、安装Nvidia的显卡驱动

1. 禁用nouveau
安装nvidia显卡驱动首先需要禁用nouveau,不然会碰到冲突的问题,导致无法安装nvidia显卡驱动。指令如下

sudo gedit /etc/modprobe.d/blacklist.conf

在打开的文件里添加如下两行:

blacklist nouveau

options nouveau modeset=0

2. 更新系统修改

sudo update-initramfs -u

输入代码之后一定要重启!!!!

3. 验证nouveau是否已禁用

lsmod | grep nouveau

如果没有出现任何东西就是成功了。
4.下载驱动文件并指令安装
在英伟达的官网上查找你自己电脑的显卡型号然后下载相应的驱动: https://www.geforce.cn/drivers, 下载后的run文件拷贝至home目录下, 文件为:NVIDIA-Linux-x86_64-xxx.run
打开ubuntu终端输入:

sudo service lightdm stop      //这个是关闭图形界面,必须关闭
sudo apt-get remove nvidia-*    //卸载系统中存在的驱动,默认有安装的,一定要执行这个
sudo chmod  a+x NVIDIA-Linux-x86_64-xxx.run    //给文件权限
sudo ./NVIDIA-Linux-x86_64-xxx.run -no-x-check -no-nouveau-check -no-opengl-files

其中:

-no-x-check:安装驱动时关闭X服务

-no-nouveau-check:安装驱动时禁用nouveau

-no-opengl-files:只安装驱动文件,不安装OpenGL文件
若安装失败说缺少对应文件说明需要安装对应文件:

sudo apt-get install gcc make 等等....

在正常安装过程中会出现:

1、he distribution-provided pre-install script failed! Are you sure you want to continue? 选择 yes 继续。

2、Would you like to register the kernel module souces with DKMS? This will allow DKMS to automatically build a new module, if you install a different kernel later? 选择NO继续

3、Would you like to run the nvidia-xconfigutility to automatically update your x configuration so that the NVIDIA x driver will be used when you restart x? Any pre-existing x confile will be backed up. 选择 Yes 继续
安装成功后:

sudo service lightdm start   //重启图形界面

5.验证安装:

nvidia-smi 

如出现显卡信息和对应的cuda版本等信息即安装成功。

二、安装CUDA

1.到cuda-toolkit-archive,选择需要的CUDA下载
2.在Install-type版本中选择runfile(local),并使用生成的指令进行下载和安装

wget https:....linuc.run
sudo sh cuda_....run

若出现权限不够的提示:

ll ./cuda_..._linux.run
#若没有出现-x命令则需要添加x执行命令
sudo chmod +x cuda_...linx.run

3.安装
第1步提示Existing package manager installation of the driver found. It is strongly recommended that you remove this before continuing.,选择continue
第二部取消勾选driver再install
Ubuntu系统搭建深度学习服务器_第1张图片
安装完成后,显示如下:
Ubuntu系统搭建深度学习服务器_第2张图片
4.配置环境变量:

gedit ~/.bashrc

再弹出的文件中添加变量:

#cuda environment variable,我下的是cuda11.6所以对应文件夹是11.6
export PATH=/usr/local/cuda-11.6/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-11.6/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

在终端检查安装

source ~/.bashrc
nvcc -V

若弹出对应版本信息则成功
或者去到/usr/local/cuda-11.7/bin/里面查看是否存在nvcc文件夹

cd /usr/local/cuda-11.7/bin/
ls
./nvcc -V

5.cuda测试:
对CUDA安装是否成功,需要进入NVIDIA CUDA示例包,其位于/home/liang/NVIDIA_CUDA-11.0_Samples内,在该文件夹下打开终端,并输入make。然后进入1_Utilities/deviceQuery文件夹,并在终端执行./deviceQuery命令,如下result=PASS则表示安装成功。

cd /home/liang/NVIDIA_CUDA-11.0_Samples/1_Utilities/bandwidthTest/
make
./bandwidthTest

最后result=PASS则表示安装成功。

3.安装cuDNN

1.安装cuDNN,到cudnn-archive下载和CUDA对应的版本
下载对应版本的Local Installer for Linux x86_64 (Tar)
对下载的cudnn-11.0-linux-x64-v8.0.5.39.tgz进行解压操作,得到一个文件夹cuda,命令为

tar -zxvf cudnn..._linux_...tgz

使用下面两条指令复制cuda文件夹下的文件到/usr/local/cuda-11.0/lib64/和/usr/local/cuda-11.0/include/中。

cp cuda/lib64/* /usr/local/cuda-11.6/lib64/
cp cuda/include/* /usr/local/cuda-11.6/include/

拷贝完成后验证:

cat /usr/local/cuda-11.6/include/cudnn_version.h | grep CUDNN_MAJOR -A 2

4.后续Ubuntu系统设置:

一定要关闭Ubuntu系统的自动更新,如果Ubuntu系统自动更新了内核,会导致与所下载的驱动版本不匹配,这样重启后导致分辨率异常!若已经异常,可参考https://blog.csdn.net/Willen_/article/details/115415975

你可能感兴趣的:(Linux,服务器,ubuntu,深度学习)