[Python][MachineLearning]Ubuntu_Linux下机器学习环境的搭建:cuda-11.3+cudnn-8.2+pytorch+tensorflow-gpu...

使用Miniconda配置机器学习环境

随着研究的进一步推进,即将开展对ML方法应用的工作,首先就需要搭建能work的工作环境。在踩坑后,发现cuda,cudnn和pytorch之间的版本对应关系非常重要。在这里记录一下自己搭建环境的摸索过程,这样以后需要搭建新的环境时就不会手忙脚乱啦!

1. 创建虚拟环境

为了防止出现环境的冲突,我们新建一个虚拟环境。

conda create -n tf python=3.8
conda activate tf

创建一个python版本为3.8的环境命名为tf,并激活此环境。
在这里也记录一下删除环境的指令。

conda remove -n $env_name --all

2. 查看本机的GPU型号和CUDA版本

nvidia-smi

输出为


GPU型号和cuda版本

这里我使用的机器上的GPU是英伟达,CUDA版本为11.6。这个版本目前来说是最新的,但是对应的cudnn版本和pytorch很难找到,所以后面我选择使用11.3的版本重新安装。

3. 安装CUDA和CUDNN

查找对应的CUDA,CUDNN版本,链接:https://www.tensorflow.org/install/source#linux
我选择了CUDA11.3+cudnn8.2+tensorflow-gpu2.7的组合。

  1. 首先,安装CUDA。
    其他攻略里有提到需要先卸载原先的CUDA再安装,但我这里没有管理员权限,所以只能利用conda在我的虚拟环境中安装新的CUDA。
    因为也要安装pytorch,现在的版本在安装pytorch时系统会给你选择合适的cuda版本,所以cuda的安装是在pytorch的安装时顺带的。官网链接:https://pytorch.org/
conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch
  1. 第二,安装cudnn。
    上一步完成时,对应cudnn是没有安装的。如果cudnn没有安装正确,在运行模型时会报错(踩过的坑之一)。
conda install cudnn=8.2

4. 安装Tensorflow

这一步没有太多波澜,直接安装

conda install tensorflow-gpu=2.7

这里,查过的很多攻略用的是pip来安装,但考虑到pip安装最终是全局安装,造成包管理混乱的问题,所以我还是选择了conda来安装。

5. Quick check

import tensorflow as tf
tf.test.is_gpu_available()

import torch
torch.cuda.is_available()

以上。

你可能感兴趣的:([Python][MachineLearning]Ubuntu_Linux下机器学习环境的搭建:cuda-11.3+cudnn-8.2+pytorch+tensorflow-gpu...)