在docker中配置pytorch(GPU)环境,cuda终于可用

一开始在docker中拉取了ubuntu镜像再配置环境就遇到pytorch安装一直报错的问题,后来安装anaconda后安装也一动不动。后来就尝试直接拉取带有cuda的pytorch镜像,结果发现torch.cuda是false,一直很苦恼,网上也有说去拉取nvidia-driver的镜像,不过我想可能是nvidia-smi不可用的问题导致cuda不可用的。

后来看可以安装nvidia docker之后再拉取镜像,我还没有尝试这个方法,结果发现可以拉一个GPU的docker的命令行。

docker run -itd --gpus all --name airw -e NVIDIA_DRIVER_CAPABILITIES=compute,utility -e NVIDIA_VISIBLE_DEVICES=all ubuntu:latest

里面的name我定义为airw,拉取的镜像为ubuntu:latest。

由于里面添加了NVIDIA_DRIVER_CAPABILITIES=compute,utility,所以docker新建的容器支持cuda,之后通过docker start 容器id,docker attach 容器id便可以成功进入容器了,也可以成功运行nvidia-smi。

由于想通过conda来安装python的库,便想着先安装miniconda,之后再构建虚拟环境。

首先通过wget来获取miniconda的安装包,便要先安装wget。

apt-get update
apt-get install wget

附上清华镜像的miniconda地址,可以选择对应版本的安装包。

https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/
wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-py38_4.12.0-Linux-x86_64.sh
bash Miniconda3-py38_4.12.0-Linux-x86_64.sh

安装完miniconda之后需要关闭当前终端,此时命令行会出现base,可以安装虚拟环境,自定义名称以及python的版本,并激活该环境,此时就会进入到该虚拟环境中。

conda create --name XXX python=3.8
conda activate XXX

紧接着可以按照pytorch了,我提前下载好需要的torch和torchvision,

附上对应的版本关系Previous PyTorch Versions | PyTorch

以及torch,torchvision的下载链接,cu开头的则是对应的gpu版本,cp则是python版本

https://download.pytorch.org/whl/torch_stable.html

并将下载好的安装包放在root目录下,通过cd root进入该目录,通过pip install来安装。

pip install torch-1.11.0+cu113-cp38-cp38-linux_x86_64.whl
pip install torchvision-0.12.0+cu113-cp38-cp38-linux_x86_64.whl

安装成功后在终端输入python,并验证cuda是否可用,此时为True!

import torch
torch.cuda.is_available()

之后就可以把这个容器打包成镜像了,首先需要停用该镜像

docker stop 容器id
docker commit 容器id 新的镜像名:对应的tag

再通过docker image就可以查看新的镜像了。

还有一些命令

# 查看所有容器
docker ps -a

# 删除指定容器
docker rm -f 容器id

# 删除镜像
docker rmi 镜像id

# 强制删掉镜像
docker rmi -f镜像id

# 重命名容器
docker rename 原来的容器名字 新容器名字

# 列出所有虚拟环境
conda env list

# 删除指定的虚拟环境
conda env remove 指定的虚拟环境名称

你可能感兴趣的:(python,pytorch,docker,深度学习)