Linux、CentOS 安装CUDA、cuDNN、PyTorch教程

文章目录

  • tips
  • 一、安装NVIDIA驱动、CUDA、cuDNN
    • 1.1 准备工作:
    • 1.2 安装NVIDIA驱动、CUDA
    • 1.3 安装cuDNN
  • 二、安装anaconda、PyTorch
    • 2.1 安装anaconda
    • 2.2 安装PyTorch
  • 总结


tips

  1. 如果是进行服务器的安装,那么整个安装过程建议直接在服务器本地进行,或者使用VNC进行远程连接操作,不要仅依赖于SSH连接进行。因为在安装过程中会进行许可同意和安装项目选择,仅依靠SSH无法显示相关信息,进而无法操作。
  2. 建议先去pytorch官网看一下支持的cuda版本,然后再选择需要安装的cuda版本,确保后续安装顺利。

一、安装NVIDIA驱动、CUDA、cuDNN

1.1 准备工作:

其他的博客的有提到过检查自己的显卡是否支持CUDA,我觉得这一步不是必需的,通过运行命令
lspci | grep -i nvidia可以看到自己的显卡信息,我自己的输出

1a:00.0 VGA compatible controller: NVIDIA Corporation GA102 [GeForce RTX 3090] (rev a1)
1a:00.1 Audio device: NVIDIA Corporation GA102 High Definition Audio Controller (rev a1)
68:00.0 VGA compatible controller: NVIDIA Corporation GA102 [GeForce RTX 3090] (rev a1)
68:00.1 Audio device: NVIDIA Corporation GA102 High Definition Audio Controller (rev a1)

能显示出显卡信息就好。

1.2 安装NVIDIA驱动、CUDA

在这里我不推荐先独立安装NVIDIA驱动,一方面是因为官方的入口不好找,另一方面是因为先独立安装NVIDIA驱动还要考虑cuda的要求。

  1. 禁用nouveau
    运行lsmod | grep nouveau,如果有信息输出的话,进行如下操作

     vim /lib/modprobe.d/dist-blacklist.conf
     注释掉 blacklist nvidiafb
     # blacklist nvidiafb
     
     在下面添加
     blacklist nouveau
     options nouveau modeset=0
     
     依次按Esc :wq 保存退出vim
    

    再次运行lsmod | grep nouveau,无信息输出则完成

  2. 安装gcc
    运行命令 yum install kernel-devel gcc -y
    运行gcc --version,有gcc版本信息输出,我自己的输出

     gcc (GCC) 8.4.1 20200928 (Red Hat 8.4.1-1)
     Copyright © 2018 Free Software Foundation, Inc.
     本程序是自由软件;请参看源代码的版权声明。本软件没有任何担保;
     包括没有适销性和某一专用目的下的适用性担保。
    
  3. 安装cuda和nvidia驱动
    在CUDA Toolkit的网站找到自己需要的CUDA版本,下载保存到本地,注意一定要记得保存路径,一会要进入该路径进行安装。这里一定不要使用ssh,要不然有的信息看不到。
    进入刚才的目录,运行命令sh cuda_****_linux.run --no-opengl-libs
    在这里插入图片描述下来会有一个许可信息,需要手动输入accept
    Linux、CentOS 安装CUDA、cuDNN、PyTorch教程_第1张图片
    接下来会选择需要安装的内容,注意“标记有x的是已选中的”,可以全选试一下,要是报错了先不要急。
    Linux、CentOS 安装CUDA、cuDNN、PyTorch教程_第2张图片
    Linux、CentOS 安装CUDA、cuDNN、PyTorch教程_第3张图片

按照报错信息输出的日志文件路径(图中蓝色框 /var/log/cuda-installer.log)找到相应的日志文件,打开看到,错误原因是因为在安装NVIDIA驱动的时候出错了。

	[ERROR]: Install of driver component failed. 
	[ERROR]: Install of 465.19.01 failed, quitting

这时候重新运行sh cuda_****_linux.run --no-opengl-libs,再输入accept,取消勾选Driver,就可以安装CUDA Toolkit了。这时候会给出一条命令提示,按照命令提示(蓝色框下面那句)就可以单独安装相对应的NVIDIA 驱动了,即运行sh cuda_****_linux.run --silent --driver。到这里,我们就成功地安装了CUDA和相对应的驱动。

1.3 安装cuDNN

进入cuDNN的下载页面,选择相对应的cuDNN进行安装。
如果不知道选哪一个可以先不装,等完成 2.2 安装PyTorch 之后再安装即可
如果已完成可以依次运行conda activate torchconda list,向上翻,如下图所示,即可找到cuDNN版本
在这里插入图片描述
在下载完成之后解压缩,进入内部可以看到 /include/lib64 两个目录,分别复制里边的文件合并到
/anaconda安装目录/include/anaconda安装目录/lib64即可。

二、安装anaconda、PyTorch

2.1 安装anaconda

进入安装目录,运行命令

wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2020.02-Linux-x86_64.sh
bash Anaconda3-2020.02-Linux-x86_64.sh
vim /etc/profile
在最后添加语句:
export ANACONDA_PATH=自己的anaconda安装目录
export PATH=$PATH:$ANACONDA_PATH/bin
按Esc :wq推出vim编辑器

运行命令conda create --name torch python=3.8,创建一个新的环境torch,安装pytorch,如有确认选择y
完成后运行conda info -e,可以查看已创建的环境,例如我的输出

conda info -e

# conda environments:
#
base                  *  /home/*****/anaconda3
torch                    /home/*****/anaconda3/envs/torch

运行conda activate torch激活torch环境,为安装pytorch做准备

2.2 安装PyTorch

前往PyTorch官网找到对应版本的安装命令,这里以11.3为例
运行命令conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch,即可进行安装
如果速度较慢的话可以采用国内的镜像源,添加镜像源的方法可自行搜索,较简单。注意,添加镜像源后,运行命令需要去掉后缀部分,改为conda install pytorch torchvision torchaudio cudatoolkit=11.3


总结

环境搭建问题还是比较麻烦的,该博客是在我完成搭建并成功试用之后进行记录的,其中可能存在有疏漏之处,望诸位小伙伴发现问题及时指正,让更多的小伙伴少踩坑~

你可能感兴趣的:(Linux,linux,centos,pytorch)