1,软件版本等基础信息
裸机环境
nvidia 驱动版本:390.77
cudnn 版本:7.0.5
cuda 版本:9.0
tensorflow-gpu 版本:1.12.0
容器环境
nvidia-docker 版本:1.0.1
安装包下载地址
docker tensorflow 惊醒地址
https://hub.docker.com/r/tensorflow/tensorflow/
镜像名称:tensorflow:latest-gpu-py320181126
cudnn :7.0 https://anaconda.org/anaconda/cudnn/files?version=7.0.5
7.3https://www.archlinux.org/packages/community/x86_64/cudnn/
cuda :版本选择地址https://developer.nvidia.com/cuda-toolkit-archive
版本对照表https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
nvidia-docker :https://github.com/NVIDIA/nvidia-docker/releases(选择rpm 下载安装)
相关文档
1https://blog.csdn.net/A632189007/article/details/78801166(第一版安装流程)
2https://liqiang311.github.io/docker/nvidia-docker%E5%91%BD%E4%BB%A4%E8%AF%A6%E8%A7%A3/(nvidia-docker 使用说明 博客)
3https://docs.nvidia.com/deeplearning/sdk/cudnn-install/index.html(nvidia cudnn安装文档)
4https://www.tensorflow.org/guide/using_gpu?hl=zh-cn(tensorflow guide)
二,安装过程
1,先安装 nvidia GPU 驱动程序
安装完成后会有 nvidia-smi 命令。可以查看GPU信息和版本
2,安装 cuda ,安装方法按照 如上文档链接 1
3, 安装 cudnn ,下载之后直接解压,并复制到/usr/local/cudnn
4,裸机安装 tensorflow
pip install tensorflow-gpu
5,指定环境变量,将 cuda和cudd 加入进来
export LD_LIBRARY_PATH="/usr/local/cuda/extras/CUPTI/lib64:/usr/local/cudnn/lib::/usr/local/cuda/lib64"
6,逻辑测试成功
三,容器隔离和测试
1,安装 nvidia-docker 插件,并启动服务
方式
rpm -ivh nvidia-docker-1.0.1-1.x86_64.rpm
systemctl start nvidia-docker
容器启动方式
nvidia-docker run --rm -it tensorflow:latest-gpu-py320181126 /bin/bash
测试成功
gpu 容器隔离方法
#通过变量 NV_GPU 指定GPU
NV_GPU=0,1 nvidia-docker run --rm -it tensorflow:latest-gpu-py320181126 /bin/bash
四,测试用例
# Creates a graph.
import tensorflow as tf
a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3], name='a')
b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2], name='b')
c = tf.matmul(a, b)
sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))
# Creates a session with log_device_placement set to True.
# Runs the op.
print(sess.run(c))
问题:
https://github.com/tensorflow/tensorflow/issues/609
会OOM GPU显存不足