〇 目的以及初始条件
一 NVIDIA显卡驱动
1.下载
2.安装
(1)禁用nouveau
(2)安装 .run 文件
二 CUDA
1.下载
2.安装
(1)安装CUDA
(2)配置环境变量
三 Anaconda
1.下载
2.安装
四 结语与后续
〇 目的以及初始条件
本帖旨在记录一次从零开始搭建深度学习Linux服务器所需全部环境的过程,希望一个帖子可以解决你配置环境的所有问题,成为你的环境搭建向导
初始默认我们拥有一台有GPU但是没有安装任何深度学习必要环境(显卡驱动 CUDA Conda)的Linux服务器,如下:
NVIDIA驱动 | |
CUDA | |
Conda |
第一步我们先安装NVIDIA显卡驱动,进入NVIDIA驱动下载官网,挑选适配设备的驱动文件并下载
官方驱动 | NVIDIAhttps://www.nvidia.cn/Download/index.aspx?lang=cn
下载的应是一个 .run 文件
sudo vim /etc/modprobe.d/blacklist.conf
对blacklist.conf进行编辑,在blacklist.conf里新增
blacklist nouveau
options nouveau modeset=0
然后重启服务器(reboot)
重启后使用以下命令,若无输出,即已屏蔽nouveau
lsmod | grep nouveau
cd到你安装包的位置
执行如下两句
注: 需要修改成你下载的 .run文件的文件名
sudo chmod a+x NVIDIA-Linux-x86_64-470.82.01.run
sudo ./NVIDIA-Linux-x86_64-470.82.01.run -no-x-check -no-nouveau-check -no-opengl-files
开始安装
可能会碰到 cc 版本不匹配、显示 xorg 、32位等等等问题,可忽略
安装进度
安装完成
使用
nvidia-smi
进行测试,下图即代表安装成功,显卡全部通过驱动读取出来了
我们选择与你安装的驱动版本相兼容的版本下载(查看驱动版本与CUDA对应点此链接→ Release Notes :: CUDA Toolkit Documentation (nvidia.com))
通常我们直接进入NVIDIA Developer网站查看 CUDA toolkit 安装都是最新版
以下链接为所有历史 CUDA 版本,你可以根据选择合适的 CUDA 版本下载
CUDA Toolkit Archive | NVIDIA Developerhttps://developer.nvidia.com/cuda-toolkit-archive
比如 我要下载 CUDA 11.1 点击进入 CUDA 11.1 的下载导航
配置好红框中参数后下面会生成对应系统的安装指令
服务器 cd 到保存其安装包的目录下 执行对应命令(这里命令对应的是我的 CUDA 11.1 版本的)
wget https://developer.download.nvidia.com/compute/cuda/11.1.0/local_installers/cuda_11.1.0_455.23.05_linux.run
运行即可下载,下图为下载好之后的 .run 文件
cd到你安装包的位置
执行如下两句
注: 需要修改成你下载的 .run文件的文件名
sudo chmod a+x cuda_11.1.0_455.23.05_linux.run
sudo ./cuda_11.1.0_455.23.05_linux.run --no-opengl-libs --librarypath=/usr/local/cuda-11.1
开始安装,进入安装界面
我们输入 accept,进入这个界面
这里我们需要注意,CUDA在这里会默认帮我们安装驱动,由于我们已经安装好 NVIDIA驱动,第一行需要取消安装(我们不建议使用 CUDA 默认安装驱动,可能会出现一系列问题)
取消默认安装驱动后,如下图
光标移动到 Install 上回车,进入安装
安装完成后,还需要配置环境变量
安装之后,我们进入 usr/local 目录,可以看到已经有了 cuda 和 cuda-11.1 两个文件夹,已经通过软链接的方式将 cuda11.1 配置为默认使用 cuda 了
打开环境变量配置文件
vim ~/.bashrc
在文件最下面加两行,保存
# cuda
export PATH=/usr/local/cuda/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
然后激活配置文件
source ~/.bashrc
使用命令测试 CUDA 是否配置完成
nvcc -V
正确输出即代表 CUDA 安装配置完成
进入 Anaconda 官网选择对应 Linux 平台下载安装包
Anaconda | Anaconda Distributionhttps://www.anaconda.com/products/distribution
下载完成后使用 ftp 上传服务器
cd到你安装包的位置
执行如下两句
注: 需要修改成你下载的 .run文件的文件名
chmod +x Anaconda3-2021.11-Linux-x86_64.sh
sudo ./Anaconda3-2021.11-Linux-x86_64.sh
进入安装导航,这里需要一直回车
一直回车 一直回车
直到这一步,需要我们输入,停止回车,输入 yes
这里我们也输入 yes 表示帮助我们配置 anaconda 的初始环境变量
安装完成,但是安装完成后,我们发现依然无法识别 conda 命令
那是因为环境变量文件配置了,但没有激活,执行以下命令激活环境变量配置文件 ↓
source ~/.bashrc
此时已经出现(base)虚拟环境
再使用 conda 命令 如 conda info,即我们已完成全部安装
其实配置的环境变量
vim ~/.bashrc
如图
部分如果出现配置文件安装位置问题导致无法激活环境变量的,请尝试在配置文件最下面加一行 ↓
export PATH="$PATH:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games"
可能可以解决此类问题
至此,深度学习服务必不可少的三件套已安装配置完成,后续会更新更详细的使用配置步骤,感兴趣的可以关注我
同时,有深度学习计算机视觉 CV 方向问题需要讨论的也可以评论区留言,非常乐意与各位大佬们讨论交流