最近配置一个深度学习的服务器,折腾了大半天,每次弄的时候都得去网上找,于是乎想自己记录一下,方便以后再次使用,由于使在网上找了好多个教程而且每个教程的方法都不一样,最开始弄的自己稀里糊涂的,不过后来只跟着其中两个教程就好了,还有一个就是我没有安装CUDNN就能够调用GPU,我不知道这是什么原因,先给自己挖个坑,如果以后找到原因了或者是不安装CUDNN不能进行深度学习的话就过来填坑
以我自己为例,省略前面购买和ssh连接的过程,实例是Ubuntu 18.04 + GPU Telsa T4
安装的是CUDA11.7.1和pytorch1.12.1
在英伟达驱动下载页面设置自己的配置,之后点击“SEARCH”,之后点击“DOWNLOAD”,再然后,右键“AGREE$DOWNLOAD”,复制链接地址
返回服务器命令行,输入wget 地址
此处是
wget https://us.download.nvidia.com/tesla/515.65.01/NVIDIA-Linux-x86_64-515.65.01.run
下载完成后,执行以下代码安装驱动
sudo chmod a+x NVIDIA-Linux-x86_64-515.65.01.run
sudo ./NVIDAI-Linux-x86_64-515.65.01.run -no-nouveau-x-check -no-opengl-files
注意:这里的版本一定要一致,即我这里的示例是 515.65.01
直接执行以下命令(前提是你要知道安装的驱动版本是适合你的服务器内核版本的)
sudo apt-get install nvidia-driver-515-server nvidia-settings nvidia-prime
因为我其实之前已经安装过了515.65.01版本的,所以我知道这个版本是可行的
然后需要重启
sudo reboot
至于如何查看可用的驱动版本,这里有一个命令,但是我自己的服务器没有成功
ubuntu-drivers devices
以及查看本机内核版本号
cat /proc/driver/nvidia/version
再使用nvidia-smi
命令出现以下界面就发现驱动安装成功了
一定记得对应版本,这里我们安装的是11.7.01
去CUDA逛网查看安装版本,其实官方给了好几个安装的方法,我这里使用的是“runfile(local)”方法
顺序输入以下两条命令
wget https://developer.download.nvidia.com/compute/cuda/11.7.1/local_installers/cuda_11.7.1_515.65.01_linux.run
sudo sh cuda_11.7.1_515.65.01_linux.run
安装完成后出现以下界面则表示安装成功
在这里之后,还需要配置变量环境才行
vim ~/.bashrc
然后在末尾加入以下指令
export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
source ~/.bashrc
刷新,使修改生效
之后,使用
nvcc -V
命令,若出现以下界面,说明修改环境变量成功
可以看到对应的cuda版本就是我们所安装的版本
去anaconda 官网找到对应的版本,Linux64位,输入命令
wget https://repo.anaconda.com/archive/Anaconda3-2022.05-Linux-x86_64.sh
然后给脚本赋予执行权限
chmod +x Anaconda3-2022.05-Linux-x86_64.sh
然后运行安装脚本即可
./Anaconda3-2022.05-Linux-x86_64.sh
安装完成之后,可能出现找不到conda命令的情况,需要手动修改shell的环境变量
sudo vim ~/.bashrc
同样的,在文件末尾添加上如下语句:
export PATH="/home/用户名/anaconda3/bin:$PATH"
然后刷新以下变量
source ~/.bashrc
再之后使用 conda env list
就可以看到当前有一个bash环境
再之后我就不再详细赘述了,这是最基本的ptorch的环境安装,只是给出命令(注意Pytorch要安装对应版本)
# 创建虚拟环境
conda create -n pytorch python=3.9
# 激活虚拟环境
conda activate pytorch
# 安装pytorch 库
conda install pytorch torchvision torchaudio cudatoolkit=11.6 -c pytorch -c conda-forge
之后就是测试是否安装成功
python
>import torch
>print(torch.cuda.is_available())
>print(torch.__version__)