参考博客:1.https://blog.csdn.net/eason_1221/article/details/103091046
2.https://blog.csdn.net/iefenghao/article/details/90747642
类似的博客还有很多
1.更新系统软件,并下载必要工具
$ sudo apt update
$ sudo apt install apt-transport-https ca-certificates curl software-properties-common
2.在/etc/apt/sources.list.d/docker.list文件中添加下面内容
$ sudo vim /etc/apt/sources.list.d/docker.list
deb [arch=amd64] https://download.docker.com/linux/ubuntu bionic stable
3.添加官方密钥
$ curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -
显示OK,表示添加成功
4.再次更新软件
$ sudo apt update
5.安装docker-ce
$ docker --version
Docker version 19.03.5, build 633a0ea838
显示Docker版本信息表示成功安装了Docker
6.添加当前用户到Docker用户组
# 列出自己的用户组,确认自己在不在 docker 组中
groups
# 没有则新增docker组
sudo groupadd docker
# 把当前用户加入到docker组中
sudo gpasswd -a ${USER} docker
# 重启docker服务
sudo service docker restart
参考博客:https://blog.csdn.net/ouening/article/details/105932177
需求:很多时候我们在GitHub找到的一些深度学习代码,由于环境依赖等原因无法跑通,比如基于tf编写的代码库,由于tf各版本API变得非常大(大坑),要想复现最简单的办法是配置和作者相同的tf环境,相应带来的麻烦是cuda版本和cudnn的重新配置,非常麻烦。
解决方案: 一个可行的解决方案是使用docker,pytorch和tensorflow官方都提供了不同版本的docker镜像,只需拉取相应镜像即可
1.安装nvidia-docker
# Add the package repositories
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker
2.安装pytorch docker镜像
镜像的地址列表:https://hub.docker.com/r/pytorch/pytorch/tags?page=1
比如我拉取的是:pytorch/pytorch:1.3-cuda10.1-cudnn7-devel,则执行
$ sudo docker pull pytorch/pytorch:1.3-cuda10.1-cudnn7-devel
查看安装的镜像:
$ sudo docker images
如下图所示 pytorch/pytorch:1.3-cuda10.1-cudnn7-devel就是我们拉取的镜像
3.启动容器
$ sudo docker run --name FastReID --gpus all -it -v $PWD:/home pytorch/pytorch:1.3-cuda10.1-cudnn7-devel bash
run
:代表启动一个容器,还有其他命令,例如rm
(删除容器),exec
,stop
,kill
等,可以查看链接:https://www.runoob.com/docker/docker-command-manual.html;--name
:代表容器名称,自行确定,如果没有指定,会随机生成;--gpus
:指定使用的gpu数量,这里为所有all
,一定要设置该参数,否则无法调用gpu;-it
:使用交互式interactive;-v
:磁盘挂载,$PWD:/home
的意思是将当前路径挂载到容器/home
目录下,这样进入容器之后cd
到/home
,就可以运行当前路径下的文件了;bash
:最后一项表示执行容器的命令,在交互模式下执行bash,就可以进入容器的bash了4.停止容器
$ sudo docker stop FastReID
FastReID就是之前创建容器时赋予的名字
5.查看容器
$ sudo docker ps
6.也可以使用下面的命令(使用容易的ID)停止容器
$ sudo docker stop a25296453d73
7.查看所有容器,包括已经停止的容器
$ sudo docker ps -a
8.删除容器
一定要慎重,不然在容器中安装的环境就没了,又得重新安装
$ sudo docker rm FastReID
$ sudo docker rm a25296453d73
9.删除镜像
$ sudo docker image rm ${IMAGE ID}
可以删除镜像,如果提示有容器在占用,需要先删除容器,再删除镜像,这里的${IMAGE ID}
就是镜像的ID
1. docker内,cuda上跑程序出错RuntimeError: DataLoader worker (pid 7199) is killed by signal: Bus error的解决
使用命令查看
df -h
解决办法:
1.是docker run的时候加参数--shm-size,但是得重起一个容器,如果部署了环境比较麻烦
2 第二种解决办法时修改容器的配置文件
systemctl stop docker
or
service docker stop
systemctl start docker
or
service docker start
重新进入docker
docker exec -it FastReID /bin/bash
已经跑上了,这部分后面有结果再写
Gethub:https://github.com/JDAI-CV/fast-reid
https://blog.csdn.net/qq_35975447/article/details/106664593
https://blog.csdn.net/qq_35975447/article/details/106714173