阿里云ecsGPU主机配置tensorflow-gpu==1.8.0

阿里云ecsGPU主机配置tensorflow-gpu==1.8.0

本地配置:

macOS Catalina 10.15.1

服务器主要配置:

ubuntu 18.04 LTS
1 * Nvidia M40显卡
8 vCPU 30 GiB 内存

主要安装使用文件:

显卡驱动:TESLA DRIVER FOR LINUX X64 version 384.183 CUDA toolkit 9.0

http://us.download.nvidia.com/tesla/384.183/NVIDIA-Linux-x86_64-384.183.run

官方匹配驱动网址:https://www.nvidia.com/Download/Find.aspx?lang=en-us

CUDA 9.0 ubuntu 17.04 runfile

https://developer.nvidia.com/compute/cuda/9.0/Prod/local_installers/cuda_9.0.176_384.81_linux-run

cuDNN v7.0.5 (Dec 5, 2017), for CUDA 9.0 [cuDNN v7.0.5 Library for Linux]

https://developer.nvidia.com/compute/machine-learning/cudnn/secure/v7.0.5/prod/9.0_20171129/cudnn-9.0-linux-x64-v7

tensorflow-gpu==1.8.0

文件下载方法:
  • 使用wget
  • 使用远程连接sftp, 本地下载好之后上传到服务器(登录名root)
    • 上传文件方法:put 本地文件路径 服务器主机路径
    • 下载文件方法(sftp):get 服务器主机路径 本地保存路径
    • 下载文件方法(终端直接输入):scp 用户名@服务器IP地址:服务器主机文件路径 本地保存路径
      scp [email protected]:/root/poem.zip /Users/lucien/Desktop/development
    • 下载文件夹方法(终端直接输入):scp -r 用户名@服务器IP地址:服务器主机文件路径 本地保存路径
      scp -r [email protected]:/root/poem /Users/lucien/Desktop/development
主要步骤:安装nvidia显卡驱动->安装cuda->安装cudnn->安装tensorflow-gpu
附版本对照:

阿里云ecsGPU主机配置tensorflow-gpu==1.8.0_第1张图片

详细步骤:
  1. sudo apt-get update

  2. 安装显卡驱动:

    下载显卡驱动

    chmod a+x NVIDIA-Linux-x86_64-384.183.run

    sudo ./NVIDIA-Linux-x86_64-384.183.run -no-x-check -no-nouveau-check -no-opengl-files

    安装过程中询问continue选择yes,否则选择no

    若安装成功,使用nvidia-smi可以查看GPU状态

  3. 安装CUDA

    下载CUDArunfile版本安装文件

    安装依赖库

    apt-get install freeglut3-dev build-essential libx11-dev libxmu-dev libxi-dev libgl1-mesa-glx libglu1-mesa libglu1-mesa-dev

    sudo chmod +x cuda_9.0.176_384.81_linux.run

    ./cuda_9.0.176_384.81_linux.run --override

    *--override 用于解决GCC版本不适用的问题

    按空格跳过许可协议

    Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 384.81?时选择no,其他选择yes并且选择默认路径

  4. 安装cuDNN

    注册并登录后进入下载界面,拷贝下载地址,使用wget下载cudnn

    使用mv 旧名称 新名称更改文件名后缀为.tgz

    tar -zxvf cudnn-9.0-linux-x64-v7.tgz

    sudo cp -P cuda/lib64/libcudnn* /usr/local/cuda-9.0/lib64

    sudo cp cuda/include/cudnn.h /usr/local/cuda-9.0/include

    sudo chmod a+r /usr/local/cuda-9.0/include/cudnn.h

    sudo chmod a+r /usr/local/cuda/lib64/libcudnn*

  5. 调整.bashrc文件

    vim ~/.bashrc

    i进入写入模式,esc退出到控制台模式,控制台模式按:w保存修改,按:q退出vim

    .bashrc的最后插入:

    export PATH=/usr/local/cuda-9.0/bin${PATH:+:${PATH}}
    export LD_LIBRARY_PATH=/usr/local/cuda/lib64:${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
    

    重启shell终端

  6. 安装tensorflow-gpu==1.8.0

    pip install tensorflow-gpu==1.8.0

    pip3 install tensorflow-gpu==1.8.0

    验证是否安装成功:

    python3

    from tensorflow.python.client import device_lib

    device_lib.list_local_devices()

    成功则在最后出现:

    [name: "/device:CPU:0"
    device_type: "CPU"
    memory_limit: 268435456
    locality {
    }
    incarnation: 15180102164632385924
    , name: "/device:GPU:0"
    device_type: "GPU"
    memory_limit: 34603008
    locality {
      bus_id: 1
      links {
      }
    }
    incarnation: 5754554889289604511
    physical_device_desc: "device: 0, name: Tesla M40, pci bus id: 0000:00:07.0, compute capability: 5.2"
    ]
    
主要参考:

https://blog.csdn.net/zywvvd/article/details/86355060

https://zhuanlan.zhihu.com/p/60107978

https://medium.com/@taylordenouden/installing-tensorflow-gpu-on-ubuntu-18-04-89a142325138

https://blog.csdn.net/oMoDao1/article/details/83241074

https://blog.csdn.net/a419419/article/details/85050585

你可能感兴趣的:(阿里云ecsGPU主机配置tensorflow-gpu==1.8.0)