硬件:联想的双3090显卡 总共 48GB显存 4TB 刀片式服务器。
软件:只安装了nvidia的驱动,能用nvidia-smi查看显卡信息,但是 nvcc -V看不到东西。
镜像包是 nvidia_cu11_tf15.tar,里面包含:
tensorflow 1.15.2+nv
tensorflow-estimator 1.15.1
tensorrt 7.1.2.8
torch 1.9.0
torchvision 0.10.0
外网:自己mate20手机插usb线给Ubuntu,然后手机点开 usb共享网络。
内网连接笔记本:网线对插笔记本和服务器,都改成 192.168.1.xx网段。
Windows修改IP地址:打开网络和共享中心,选择适配器设置,右键选择属性,然后选择Internet协议版本4(TCP/IPv4),点击属性,手动输入IP地址、子网掩码和默认网关。确保两台计算机的IP地址在同一网段内,例如192.168.1.x。然后可以使用ping命令测试两台计算机之间的连接。如果无法ping通,可以检查防火墙设置或者网络配置是否正确。
Ubuntu是有多个网卡的系统,我怎么知道哪个IP是我需要改的,或者我怎么手动修改该Ubuntu系统下的某个端口的IP地址、子网掩码和默认网关
如果需要手动修改某个端口的IP地址,可以使用ifconfig命令加上端口名来指定要修改的网卡,例如ifconfig eth0 192.168.1.2 netmask 255.255.255.0 gateway 192.168.1.1。这将把eth0端口的IP地址设置为192.168.1.2,子网掩码为255.255.255.0,默认网关为192.168.1.1。
能ping 通后,用 WinSCP 连接Ubuntu,然后上传 nvidia_cu11_tf15.tar 到 它的 data 目录。
公司nvidia驱动和环境里的TensorFlow,torch 是不一样的。一开始担心 是不是 要 降级 Ubuntu下的显卡驱动。
启动后:先图形化实现 软件和更新
点击左下角 9个点点,上面搜索栏 搜索 软件和更新,或者 ctrl alt T 打开 终端,输入:
docker:
Ubuntu Docker 安装 | 菜鸟教程
上面文章,拉到最后,参考 3 篇笔记 里的 第二篇 是可以成功安装 docker的。
docker-ce的快速安装_docker-ce安装_ftt@sxz的博客-CSDN博客
nvidia-docker2:
Ubuntu 14.04/16.04/18.04安装nvidia-docker2_nudt_qxx的博客-CSDN博客
注意一定要保持网络畅通。
因为 原系统里已经有了 nvidia驱动,所以 在只执行 三. 和 五.
五. 注意
# If you have nvidia-docker 1.0 installed: we need to remove it and all existing GPU containers
如果你是全新安装,不需要执行这一步。
# Test nvidia-smi with the latest official CUDA image
docker run --runtime=nvidia --rm nvidia/cuda:9.0-base nvidia-smi
上面这条 一定要在 网络好的时候多执行一次,我第一次就是没有执行成功,后来是网速好的时候再次执行,才成功,执行成功是 下面这个结果:
docker load< xxx.tar
docker images
docker run --gpus all -itd
docker ps -a
docker exec -it dockerID bash
python3
import tensorflow as tf
print(tf.test.is_gpu_available())
以Django举例子。
1、进入容器
docker exec -it dockerID bash
2、安装django
>pip3 install -i https://pypi.douban.com/simple django
或 指定相应的django版本:
>pip3 install -i https://pypi.douban.com/simple django==2.0
pip3 安装 到 python3 的环境
3、验证是否安装成功
python -c "import django; print(django.get_version())"
step 5 如果要固化到镜像,则需要重新构建 Dockerfile
FROM ubuntu:latest
RUN apt-get update && apt-get install -y python3 python3-pip
RUN pip3 install django
COPY myproject /app/myproject
WORKDIR /app/myproject
EXPOSE 8000
CMD ["python3", "manage.py", "runserver", "0.0.0.0:8000"]
在 Dockerfile 里 加上 ,RUN pip3 install django
然后构建镜像