Linux下 NVIDIA显卡驱动 + CUDA + Anaconda 安装配置全流程(记录深度学习服务器环境从零开始搭建)

Linux下 NVIDIA显卡驱动 + CUDA + Anaconda 安装配置全流程(记录深度学习服务器环境从零开始搭建)_第1张图片

目录

〇 目的以及初始条件

一 NVIDIA显卡驱动

1.下载

2.安装

(1)禁用nouveau

(2)安装 .run 文件

二 CUDA

1.下载

2.安装

(1)安装CUDA

(2)配置环境变量

三 Anaconda

1.下载

2.安装

四 结语与后续


〇 目的以及初始条件

本帖旨在记录一次从零开始搭建深度学习Linux服务器所需全部环境的过程,希望一个帖子可以解决你配置环境的所有问题,成为你的环境搭建向导

初始默认我们拥有一台有GPU但是没有安装任何深度学习必要环境(显卡驱动 CUDA Conda)的Linux服务器,如下:

NVIDIA驱动
CUDA
Conda

一 NVIDIA显卡驱动

1.下载

第一步我们先安装NVIDIA显卡驱动,进入NVIDIA驱动下载官网,挑选适配设备的驱动文件并下载

官方驱动 | NVIDIAhttps://www.nvidia.cn/Download/index.aspx?lang=cnLinux下 NVIDIA显卡驱动 + CUDA + Anaconda 安装配置全流程(记录深度学习服务器环境从零开始搭建)_第2张图片

Linux下 NVIDIA显卡驱动 + CUDA + Anaconda 安装配置全流程(记录深度学习服务器环境从零开始搭建)_第3张图片

下载的应是一个 .run 文件

下载完成后,通过ftp上传至服务器


2.安装

(1)禁用nouveau

sudo vim /etc/modprobe.d/blacklist.conf

对blacklist.conf进行编辑,在blacklist.conf里新增

blacklist nouveau
options nouveau modeset=0

然后重启服务器(reboot)

重启后使用以下命令,若无输出,即已屏蔽nouveau

lsmod | grep nouveau

(2)安装 .run 文件

cd到你安装包的位置

执行如下两句

注: 需要修改成你下载的 .run文件的文件名

sudo chmod a+x NVIDIA-Linux-x86_64-470.82.01.run
sudo ./NVIDIA-Linux-x86_64-470.82.01.run -no-x-check -no-nouveau-check -no-opengl-files

开始安装

可能会碰到 cc 版本不匹配、显示 xorg 、32位等等等问题,可忽略

Linux下 NVIDIA显卡驱动 + CUDA + Anaconda 安装配置全流程(记录深度学习服务器环境从零开始搭建)_第4张图片

 安装进度

 安装完成

使用

nvidia-smi

 进行测试,下图即代表安装成功,显卡全部通过驱动读取出来了

Linux下 NVIDIA显卡驱动 + CUDA + Anaconda 安装配置全流程(记录深度学习服务器环境从零开始搭建)_第5张图片


二 CUDA

1.下载

我们选择与你安装的驱动版本相兼容的版本下载(查看驱动版本与CUDA对应点此链接→ Release Notes :: CUDA Toolkit Documentation (nvidia.com))

通常我们直接进入NVIDIA Developer网站查看 CUDA toolkit 安装都是最新版

以下链接为所有历史 CUDA 版本,你可以根据选择合适的 CUDA 版本下载
CUDA Toolkit Archive | NVIDIA Developerhttps://developer.nvidia.com/cuda-toolkit-archive

比如 我要下载 CUDA 11.1 点击进入 CUDA 11.1 的下载导航

Linux下 NVIDIA显卡驱动 + CUDA + Anaconda 安装配置全流程(记录深度学习服务器环境从零开始搭建)_第6张图片 Linux下 NVIDIA显卡驱动 + CUDA + Anaconda 安装配置全流程(记录深度学习服务器环境从零开始搭建)_第7张图片

配置好红框中参数后下面会生成对应系统的安装指令

服务器 cd 到保存其安装包的目录下 执行对应命令(这里命令对应的是我的 CUDA 11.1 版本的)

wget https://developer.download.nvidia.com/compute/cuda/11.1.0/local_installers/cuda_11.1.0_455.23.05_linux.run

 运行即可下载,下图为下载好之后的 .run 文件


2.安装

(1)安装CUDA

cd到你安装包的位置

执行如下两句

注: 需要修改成你下载的 .run文件的文件名

sudo chmod a+x cuda_11.1.0_455.23.05_linux.run
sudo ./cuda_11.1.0_455.23.05_linux.run --no-opengl-libs --librarypath=/usr/local/cuda-11.1

开始安装,进入安装界面

Linux下 NVIDIA显卡驱动 + CUDA + Anaconda 安装配置全流程(记录深度学习服务器环境从零开始搭建)_第8张图片

 我们输入 accept,进入这个界面

这里我们需要注意,CUDA在这里会默认帮我们安装驱动,由于我们已经安装好 NVIDIA驱动,第一行需要取消安装(我们不建议使用 CUDA 默认安装驱动,可能会出现一系列问题)

Linux下 NVIDIA显卡驱动 + CUDA + Anaconda 安装配置全流程(记录深度学习服务器环境从零开始搭建)_第9张图片

 取消默认安装驱动后,如下图

Linux下 NVIDIA显卡驱动 + CUDA + Anaconda 安装配置全流程(记录深度学习服务器环境从零开始搭建)_第10张图片

 光标移动到 Install 上回车,进入安装

Linux下 NVIDIA显卡驱动 + CUDA + Anaconda 安装配置全流程(记录深度学习服务器环境从零开始搭建)_第11张图片

 完成安装Linux下 NVIDIA显卡驱动 + CUDA + Anaconda 安装配置全流程(记录深度学习服务器环境从零开始搭建)_第12张图片

(2)配置环境变量

安装完成后,还需要配置环境变量

安装之后,我们进入 usr/local 目录,可以看到已经有了 cuda 和 cuda-11.1 两个文件夹,已经通过软链接的方式将 cuda11.1 配置为默认使用 cuda 了

打开环境变量配置文件

vim ~/.bashrc

在文件最下面加两行,保存

# cuda
export PATH=/usr/local/cuda/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

然后激活配置文件

source ~/.bashrc

使用命令测试 CUDA 是否配置完成

nvcc -V

 正确输出即代表 CUDA 安装配置完成

Linux下 NVIDIA显卡驱动 + CUDA + Anaconda 安装配置全流程(记录深度学习服务器环境从零开始搭建)_第13张图片


三 Anaconda

1.下载

进入 Anaconda 官网选择对应 Linux 平台下载安装包

Anaconda | Anaconda Distributionhttps://www.anaconda.com/products/distributionLinux下 NVIDIA显卡驱动 + CUDA + Anaconda 安装配置全流程(记录深度学习服务器环境从零开始搭建)_第14张图片

Linux下 NVIDIA显卡驱动 + CUDA + Anaconda 安装配置全流程(记录深度学习服务器环境从零开始搭建)_第15张图片

 下载完成后使用 ftp 上传服务器


2.安装

cd到你安装包的位置

执行如下两句

注: 需要修改成你下载的 .run文件的文件名

chmod +x Anaconda3-2021.11-Linux-x86_64.sh
sudo ./Anaconda3-2021.11-Linux-x86_64.sh

进入安装导航,这里需要一直回车 

 Linux下 NVIDIA显卡驱动 + CUDA + Anaconda 安装配置全流程(记录深度学习服务器环境从零开始搭建)_第16张图片

一直回车 一直回车 

Linux下 NVIDIA显卡驱动 + CUDA + Anaconda 安装配置全流程(记录深度学习服务器环境从零开始搭建)_第17张图片... ... ... 

直到这一步,需要我们输入,停止回车,输入 yes

Linux下 NVIDIA显卡驱动 + CUDA + Anaconda 安装配置全流程(记录深度学习服务器环境从零开始搭建)_第18张图片

这里我们也输入 yes 表示帮助我们配置 anaconda 的初始环境变量

Linux下 NVIDIA显卡驱动 + CUDA + Anaconda 安装配置全流程(记录深度学习服务器环境从零开始搭建)_第19张图片

安装完成,但是安装完成后,我们发现依然无法识别 conda 命令

 

那是因为环境变量文件配置了,但没有激活,执行以下命令激活环境变量配置文件 ↓

source ~/.bashrc

此时已经出现(base)虚拟环境

再使用 conda 命令 如 conda info,即我们已完成全部安装

Linux下 NVIDIA显卡驱动 + CUDA + Anaconda 安装配置全流程(记录深度学习服务器环境从零开始搭建)_第20张图片

其实配置的环境变量

vim ~/.bashrc

如图

Linux下 NVIDIA显卡驱动 + CUDA + Anaconda 安装配置全流程(记录深度学习服务器环境从零开始搭建)_第21张图片

部分如果出现配置文件安装位置问题导致无法激活环境变量的,请尝试在配置文件最下面加一行 ↓

export PATH="$PATH:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games"

可能可以解决此类问题 


四 结语与后续

至此,深度学习服务必不可少的三件套已安装配置完成,后续会更新更详细的使用配置步骤,感兴趣的可以关注我

同时,有深度学习计算机视觉 CV 方向问题需要讨论的也可以评论区留言,非常乐意与各位大佬们讨论交流

你可能感兴趣的:(Linux环境部署,服务器,深度学习,运维,linux)