Windows系统下阿里云GPU服务器从搭建到tensorflow训练

目录

  • 基本框架
  • 安装软件
  • Jupyter Notebook相关操作
    • 1.添加虚拟环境
      • 1.1 通过已有的虚拟环境包
      • 1.2 通过prompt新建新的虚拟环境
      • 1.3 在Jupyter Notebook中增加kernel
      • 1.4 删除虚拟环境
      • 1.5 whl文件安装第三方库
    • 2.检查GPU使用
  • Spyder相关操作

基本框架

阿里云GPU服务器,实例为异构计算GPU/FPGA/NPU > GPU虚拟化型,4vcpu,23GiB内存的GPU轻量型,镜像选择Windows Server 2016 中文版预装GRID驱动,添加一个数据盘(D:)。
这个镜像本身带有GRID驱动,不需要自己安装。

安装软件

下载Chrome
1.打开实例,在D盘中安装anaconda3,添加环境变量;打开prompt,添加国内源:
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/win-64

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/noarch

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/win-64

2.查看该实例支持的cuda版本:桌面右键打开NVIDIA控制面板,点击系统信息,选择“组件”,可以看到NVCUDA.DLL行右侧版本,10.1.120。推荐在cuda-toolkit-archive选择对应版本下载,一定要选择对应版本。(官网下载通道好像只能下载最新版本)。

安装时选择自定义安装:取消勾选GeForce Experience ,如果电脑上本身就有Visual Studio Integration,要将这个取消勾选,避免冲突。取消勾选Driver comonents,Display Driver这一行,左侧显示的是Cuda本身包含的驱动版本,如果你电脑目前安装的驱动版本号新于Cuda本身自带的驱动版本号,那一定要把这个勾去掉,否则会安装失败(相同就不用取勾了)。推荐默认路径安装。

检查:打开路径 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\bin ,如果有nvcc.exe就说明CUDA安装已成功。
参考 CUDA10.0、CUDNN(和cuda对应版本),tensorflow2.0在windows下的安装及配置
添加环境变量至所有环境变量顶部。
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\libnvvp
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\include

3.下载对应版本cudnn,须先注册登录官网,在网页顶部PLATFORMS处选择cuDNN,填写应用问卷后会提供版本选择,选择10.1对应版本中的Windows 64位系统下载。(该服务器系统是Windows server 2016,一般cuDNN系统选择都是win7和win10,通过这个路径选择的10.1版本是有Windows系统的)
4.cudnn压缩包解压后,将其中include,bin,lib/x64中的内容分别移动到C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1中的include,bin,lib/x64文件夹中。
5.检查:打开powershell,输入nvcc -V,应输出cuda版本号。
6.安装tensorflow-gpu(如果在虚拟环境中安装先新建虚拟环境)
7.tensorflow各个版本的CUDA以及Cudnn版本对应关系
8.在环境变量中添加C:\Program Files\NVIDIA Corporation\NVSMI路径可以在cmd中使用nvidia-smi命令查看GPU信息。

Jupyter Notebook相关操作

1.添加虚拟环境

1.1 通过已有的虚拟环境包

将压缩包解压到D:\anaconda\envs中,打开prompt,输入D:可以切换到D盘,再cd到envs文件夹中,添加环境变量,输入conda activate [your_env_name],即可切换到虚拟环境中。
conda env list检查是否添加成功

1.2 通过prompt新建新的虚拟环境

conda create -n [your_env_name] python=x.x

1.3 在Jupyter Notebook中增加kernel

切换到虚拟环境中,输入conda install ipykernel
如果无法安装,也可以尝试在base环境下使用conda install -n your_env_name ipykernel

再输入python -m ipykernel install --user --name [your_env_name] --display-name “Python [conda env:your_env_name]”

其中:
①[your_env_name] 是虚拟环境名称
②Python [conda env:your_env_name]:将是在notebook中看到的名称。

1.4 删除虚拟环境

conda remove -n [your_env_name] --all

1.5 whl文件安装第三方库

cd [whl文件所在路径]
pip install xxx.whl

2.检查GPU使用

import tensorflow as tf
print(tf.test.gpu_device_name())

如果输出空字符串,则GPU调用失败,若不是空字符串,如“/device:GPU:0”则调用成功。

Spyder相关操作

在prompt中切换到虚拟环境,输入conda install spyder进行Spyder的安装。安装后在虚拟环境下输入Spyder即可运行。

其他服务器细节参考阿里云创建配备NVIDIA GPU的实例

你可能感兴趣的:(tensorflow,gpu,python,cuda,阿里云)