云服务器搭建深度学习环境

最近配置一个深度学习的服务器,折腾了大半天,每次弄的时候都得去网上找,于是乎想自己记录一下,方便以后再次使用,由于使在网上找了好多个教程而且每个教程的方法都不一样,最开始弄的自己稀里糊涂的,不过后来只跟着其中两个教程就好了,还有一个就是我没有安装CUDNN就能够调用GPU,我不知道这是什么原因,先给自己挖个坑,如果以后找到原因了或者是不安装CUDNN不能进行深度学习的话就过来填坑

以我自己为例,省略前面购买和ssh连接的过程,实例是Ubuntu 18.04 + GPU Telsa T4
安装的是CUDA11.7.1和pytorch1.12.1

目录

  • GPU驱动安装
    • 方法一
    • 方法二
  • CUDA安装
  • 安装Anaconda
  • 安装pytorch

GPU驱动安装

方法一

在英伟达驱动下载页面设置自己的配置,之后点击“SEARCH”,之后点击“DOWNLOAD”,再然后,右键“AGREE$DOWNLOAD”,复制链接地址
云服务器搭建深度学习环境_第1张图片
返回服务器命令行,输入wget 地址
此处是

wget https://us.download.nvidia.com/tesla/515.65.01/NVIDIA-Linux-x86_64-515.65.01.run

下载完成后,执行以下代码安装驱动

sudo chmod a+x NVIDIA-Linux-x86_64-515.65.01.run
sudo ./NVIDAI-Linux-x86_64-515.65.01.run -no-nouveau-x-check -no-opengl-files

注意:这里的版本一定要一致,即我这里的示例是 515.65.01

方法二

直接执行以下命令(前提是你要知道安装的驱动版本是适合你的服务器内核版本的)

sudo apt-get install nvidia-driver-515-server nvidia-settings nvidia-prime

因为我其实之前已经安装过了515.65.01版本的,所以我知道这个版本是可行的
然后需要重启

sudo reboot

至于如何查看可用的驱动版本,这里有一个命令,但是我自己的服务器没有成功

ubuntu-drivers devices

以及查看本机内核版本号

cat /proc/driver/nvidia/version

再使用nvidia-smi命令出现以下界面就发现驱动安装成功了
云服务器搭建深度学习环境_第2张图片

CUDA安装

一定记得对应版本,这里我们安装的是11.7.01
去CUDA逛网查看安装版本,其实官方给了好几个安装的方法,我这里使用的是“runfile(local)”方法
云服务器搭建深度学习环境_第3张图片
顺序输入以下两条命令

wget https://developer.download.nvidia.com/compute/cuda/11.7.1/local_installers/cuda_11.7.1_515.65.01_linux.run
sudo sh cuda_11.7.1_515.65.01_linux.run

安装完成后出现以下界面则表示安装成功
云服务器搭建深度学习环境_第4张图片
在这里之后,还需要配置变量环境才行

vim ~/.bashrc

然后在末尾加入以下指令

export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

在这里插入图片描述
若环境变量没有生效,可使用

source ~/.bashrc

刷新,使修改生效
之后,使用

nvcc -V

命令,若出现以下界面,说明修改环境变量成功
云服务器搭建深度学习环境_第5张图片
可以看到对应的cuda版本就是我们所安装的版本

安装Anaconda

去anaconda 官网找到对应的版本,Linux64位,输入命令

wget https://repo.anaconda.com/archive/Anaconda3-2022.05-Linux-x86_64.sh

然后给脚本赋予执行权限

chmod +x Anaconda3-2022.05-Linux-x86_64.sh

然后运行安装脚本即可

./Anaconda3-2022.05-Linux-x86_64.sh

安装完成之后,可能出现找不到conda命令的情况,需要手动修改shell的环境变量

sudo vim ~/.bashrc

同样的,在文件末尾添加上如下语句:

export PATH="/home/用户名/anaconda3/bin:$PATH"

然后刷新以下变量

source ~/.bashrc

再之后使用 conda env list就可以看到当前有一个bash环境
在这里插入图片描述

安装pytorch

再之后我就不再详细赘述了,这是最基本的ptorch的环境安装,只是给出命令(注意Pytorch要安装对应版本)

# 创建虚拟环境
conda create -n pytorch python=3.9
# 激活虚拟环境
conda activate pytorch
# 安装pytorch 库
conda install pytorch torchvision torchaudio cudatoolkit=11.6 -c pytorch -c conda-forge

之后就是测试是否安装成功

python
>import torch
>print(torch.cuda.is_available())
>print(torch.__version__)

如果是安装成功并且能够调用GPU的话,会出现TRUE的界面并且打印出torch版本
云服务器搭建深度学习环境_第6张图片

你可能感兴趣的:(深度学习,深度学习)