一开始在docker中拉取了ubuntu镜像再配置环境就遇到pytorch安装一直报错的问题,后来安装anaconda后安装也一动不动。后来就尝试直接拉取带有cuda的pytorch镜像,结果发现torch.cuda是false,一直很苦恼,网上也有说去拉取nvidia-driver的镜像,不过我想可能是nvidia-smi不可用的问题导致cuda不可用的。
后来看可以安装nvidia docker之后再拉取镜像,我还没有尝试这个方法,结果发现可以拉一个GPU的docker的命令行。
docker run -itd --gpus all --name airw -e NVIDIA_DRIVER_CAPABILITIES=compute,utility -e NVIDIA_VISIBLE_DEVICES=all ubuntu:latest
里面的name我定义为airw,拉取的镜像为ubuntu:latest。
由于里面添加了NVIDIA_DRIVER_CAPABILITIES=compute,utility,所以docker新建的容器支持cuda,之后通过docker start 容器id,docker attach 容器id便可以成功进入容器了,也可以成功运行nvidia-smi。
由于想通过conda来安装python的库,便想着先安装miniconda,之后再构建虚拟环境。
首先通过wget来获取miniconda的安装包,便要先安装wget。
apt-get update
apt-get install wget
附上清华镜像的miniconda地址,可以选择对应版本的安装包。
https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/
wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-py38_4.12.0-Linux-x86_64.sh
bash Miniconda3-py38_4.12.0-Linux-x86_64.sh
安装完miniconda之后需要关闭当前终端,此时命令行会出现base,可以安装虚拟环境,自定义名称以及python的版本,并激活该环境,此时就会进入到该虚拟环境中。
conda create --name XXX python=3.8
conda activate XXX
紧接着可以按照pytorch了,我提前下载好需要的torch和torchvision,
附上对应的版本关系Previous PyTorch Versions | PyTorch
以及torch,torchvision的下载链接,cu开头的则是对应的gpu版本,cp则是python版本
https://download.pytorch.org/whl/torch_stable.html
并将下载好的安装包放在root目录下,通过cd root进入该目录,通过pip install来安装。
pip install torch-1.11.0+cu113-cp38-cp38-linux_x86_64.whl
pip install torchvision-0.12.0+cu113-cp38-cp38-linux_x86_64.whl
安装成功后在终端输入python,并验证cuda是否可用,此时为True!
import torch
torch.cuda.is_available()
之后就可以把这个容器打包成镜像了,首先需要停用该镜像
docker stop 容器id
docker commit 容器id 新的镜像名:对应的tag
再通过docker image就可以查看新的镜像了。
还有一些命令
# 查看所有容器
docker ps -a
# 删除指定容器
docker rm -f 容器id
# 删除镜像
docker rmi 镜像id
# 强制删掉镜像
docker rmi -f镜像id
# 重命名容器
docker rename 原来的容器名字 新容器名字
# 列出所有虚拟环境
conda env list
# 删除指定的虚拟环境
conda env remove 指定的虚拟环境名称