新的Ubuntu服务器上如何安装深度学习环境的docker

 背景:

硬件:联想的双3090显卡 总共 48GB显存 4TB 刀片式服务器。

软件:只安装了nvidia的驱动,能用nvidia-smi查看显卡信息,但是 nvcc -V看不到东西。

镜像包是 nvidia_cu11_tf15.tar,里面包含:

tensorflow                1.15.2+nv
tensorflow-estimator      1.15.1
tensorrt                  7.1.2.8
torch                     1.9.0
torchvision               0.10.0

step 1 搞通网络

外网:自己mate20手机插usb线给Ubuntu,然后手机点开 usb共享网络。

内网连接笔记本:网线对插笔记本和服务器,都改成 192.168.1.xx网段。

Windows修改IP地址:打开网络和共享中心,选择适配器设置,右键选择属性,然后选择Internet协议版本4(TCP/IPv4),点击属性,手动输入IP地址、子网掩码和默认网关。确保两台计算机的IP地址在同一网段内,例如192.168.1.x。然后可以使用ping命令测试两台计算机之间的连接。如果无法ping通,可以检查防火墙设置或者网络配置是否正确。

Ubuntu是有多个网卡的系统,我怎么知道哪个IP是我需要改的,或者我怎么手动修改该Ubuntu系统下的某个端口的IP地址、子网掩码和默认网关

如果需要手动修改某个端口的IP地址,可以使用ifconfig命令加上端口名来指定要修改的网卡,例如ifconfig eth0 192.168.1.2 netmask 255.255.255.0 gateway 192.168.1.1。这将把eth0端口的IP地址设置为192.168.1.2,子网掩码为255.255.255.0,默认网关为192.168.1.1。

能ping 通后,用 WinSCP 连接Ubuntu,然后上传 nvidia_cu11_tf15.tar 到 它的 data 目录。

step 2 安装 docker 和 nvidia-docker2

        公司nvidia驱动和环境里的TensorFlow,torch 是不一样的。一开始担心 是不是 要 降级 Ubuntu下的显卡驱动。

启动后:先图形化实现 软件和更新

点击左下角 9个点点,上面搜索栏 搜索 软件和更新,或者 ctrl  alt T 打开 终端,输入:

docker

Ubuntu Docker 安装 | 菜鸟教程

上面文章,拉到最后,参考 3 篇笔记 里的 第二篇 是可以成功安装 docker的。

docker-ce的快速安装_docker-ce安装_ftt@sxz的博客-CSDN博客

nvidia-docker2

Ubuntu 14.04/16.04/18.04安装nvidia-docker2_nudt_qxx的博客-CSDN博客

 注意一定要保持网络畅通。

因为 原系统里已经有了 nvidia驱动,所以 在只执行 三. 和 五.

五. 注意 

# If you have nvidia-docker 1.0 installed: we need to remove it and all existing GPU containers

如果你是全新安装,不需要执行这一步。

# Test nvidia-smi with the latest official CUDA image

docker run --runtime=nvidia --rm nvidia/cuda:9.0-base nvidia-smi

上面这条 一定要在 网络好的时候多执行一次,我第一次就是没有执行成功,后来是网速好的时候再次执行,才成功,执行成功是 下面这个结果:

新的Ubuntu服务器上如何安装深度学习环境的docker_第1张图片

step 3 如何使 docker服务 能 使用 GPU的TF,pytorch

docker load<  xxx.tar

docker images

docker run --gpus all -itd

docker ps -a

docker exec -it dockerID  bash

python3

import tensorflow as tf

print(tf.test.is_gpu_available())

step 4 docker里安装新的python包

以Django举例子。

1、进入容器

docker exec -it dockerID  bash

2、安装django

>pip3 install -i https://pypi.douban.com/simple django
或 指定相应的django版本:
>pip3 install -i https://pypi.douban.com/simple django==2.0

pip3 安装 到 python3 的环境

3、验证是否安装成功

python -c "import django; print(django.get_version())"

step 5 如果要固化到镜像,则需要重新构建 Dockerfile

FROM ubuntu:latest
RUN apt-get update && apt-get install -y python3 python3-pip
RUN pip3 install django
COPY myproject /app/myproject
WORKDIR /app/myproject
EXPOSE 8000
CMD ["python3", "manage.py", "runserver", "0.0.0.0:8000"]

在 Dockerfile 里 加上 ,RUN pip3 install django

然后构建镜像

你可能感兴趣的:(docker,ubuntu,深度学习)