在腾讯云服务器上安装tensorflow-1.15-gpu(NVIDIA TESLA T4 + WINDOWS)

关于腾讯云服务器的使用,就不过多赘述,这里有一个新手向的介绍视频,因为是拿来做深度学习,所以我买的是GPU服务器,显卡是Tesla T4,这一款需要自己装显卡驱动。

腾讯云轻量应用服务器远程桌面登录挂机教程-新手教程_哔哩哔哩_bilibili

在腾讯云服务器上安装tensorflow-1.15-gpu(NVIDIA TESLA T4 + WINDOWS)_第1张图片

注意,在购买的时候会让你选择系统版本,可以选windows/linux之类的,这里你需要看一下你要安装的tensorflow版本。像我一开始没想太多选择的是Windows server 2019,结果装驱动的时候发现匹配的显卡驱动最低版本只支持CUDA10.1,但是我要装的tensorflow 1.15 是和10.0匹配的,后面也出现了一系列的报错,最后把系统换成支持CUDA10.0的2016才成功。

我的版本配置:显卡Tesla T4+windows server 2016+CUDA10.0+cuDNN7.4.2+tensorflow1.15-gpu+Anaconda3-2021.11

不过云服务器换系统很方便,在控制端点几下,几分钟就好,更换系统可以参照

腾讯云服务器如何更换系统? - 腾讯云开发者社区-腾讯云 (tencent.com)

安装步骤以官方教程为主,需要参照哪些都会列出来。

装显卡驱动

连上服务器后,第一件事是把IE浏览器换成EDGE,然后就和自己电脑一样,先从装显卡驱动开始。

这部分也不需要多说,官方教程写得非常明白。唯一需要注意的是要定好后续用的CUDA版本,以选择匹配的显卡型号。

GPU 云服务器 安装 NVIDIA Tesla 驱动-操作指南-文档中心-腾讯云 (tencent.com)

在腾讯云服务器上安装tensorflow-1.15-gpu(NVIDIA TESLA T4 + WINDOWS)_第2张图片

安装好后在设备管理器可以看到多了你的显卡,但是在任务管理器看不到,我也不知道为啥。

安装CUDA

GPU 云服务器 安装 CUDA 驱动-操作指南-文档中心-腾讯云 (tencent.com)

CUDA也是跟官方走,选好版本

在腾讯云服务器上安装tensorflow-1.15-gpu(NVIDIA TESLA T4 + WINDOWS)_第3张图片

装好CUDA和Anaconda后,看一下环境变量的Path有没有缺漏,这点十分重要,关系到tf-gpu能够顺利运行。

GPU 云服务器 使用 Windows GPU 云服务器搭建深度学习环境-最佳实践-文档中心-腾讯云 (tencent.com)

官方有一个搭建深度学习环境的教程,强烈建议看一下,里面详细的教你怎么选CUDA这些东西的版本已经环境变量。

在腾讯云服务器上安装tensorflow-1.15-gpu(NVIDIA TESLA T4 + WINDOWS)_第4张图片

框里圈起来的5个加上Anaconda/Scrips,一共6个一个都不能少,确保都在path里。

安装cuDNN

cuDNN版本照常安装,有一个问题是选系统版本那里只有windows7/10没有server,我选的win10,最后也成功运行了,可以参考。

创建环境

在命令栏输入以下代码

conda create -n tensorflow1.15-gpu python=3.7#tensorflow1.15-gpu是环境名称

这里不出意外的话会遇到HTTPError的问题,网上的意见都是换各种国内源,试了很多都行不通

之前我的.condarc文件(在C盘用户目录下,没有就conda config一下),内容都是

default_channels:
  - https://anaconda.mirrors.sjtug.sjtu.edu.cn/pkgs/r
  - https://anaconda.mirrors.sjtug.sjtu.edu.cn/pkgs/main
custom_channels:
  conda-forge: https://anaconda.mirrors.sjtug.sjtu.edu.cn/cloud/
  pytorch: https://anaconda.mirrors.sjtug.sjtu.edu.cn/cloud/
channels:
  - defaults

我按照这个换了行不通(这个内容在其他电脑上安装是好使的,不知道为什么在服务器上疯狂报错)

后来翻到了这个教程,只有它有用

Anaconda建立新的环境,出现CondaHTTPError: HTTP 000 CONNECTION FAILED for url ...... 解决过程 - tianlang25 - 博客园 (cnblogs.com)

即把.condarc文件的内容换成

ssl_verify: true
show_channel_urls: true

channels:
  - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/win-64/
  - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/win-64/

激活环境

创建好环境后,我们可以进行后续的安装操作了

在anaconda promp中激活环境

conda activate tensorflow1.15-gpu#从base切换到你创建的环境中

安装tensorflow

pip install tensorflow_gpu==1.15

版本验证

等代码跑完就安装好了,验证是否成功安装tensorflow-gpu版本可以在虚拟环境中输入

python
import tensorflow as tf
tf.test.is_gpu_available()  # 返回True则安装成功 
在腾讯云服务器上安装tensorflow-1.15-gpu(NVIDIA TESLA T4 + WINDOWS)_第5张图片

以上就是在云服务器安装tensorflow1.15的全部过程。

只要版本是对的,就算还有一些小bug,百度报错信息基本都能解决,我的这篇教程也写了一些常见报错的解决方法。

windows10安装tensorflow-gpu_Silver_777的博客-CSDN博客_tensorflowgpu安装win10

关于Windows server 2016的一些问题

这个系统版本有些特殊,如果你是做3D渲染,除了安装NVIDIA Tesla 驱动和CUDA 驱动驱动以外,还需要安装NVIDIA GRID 驱动

GPU 云服务器 安装 NVIDIA GRID 驱动-操作指南-文档中心-腾讯云 (tencent.com)

而且还有一些特殊的地方,像我只是深度学习,所以没有装NVIDIA GRID 驱动,虽然GPU也可以正常用,但是在任务管理器是看不到GPU资源使用情况的

在腾讯云服务器上安装tensorflow-1.15-gpu(NVIDIA TESLA T4 + WINDOWS)_第6张图片

客服给的解释是:

关于您反馈的问题2018年国庆后的Win10、Server2019、Server2022、Win11这些新系统才会在任务管理器的性能页签里显示GPU模块,Server2016等低版本系统是不会显示的,在此基础上,还需要安装Grid驱动才行,而Grid License本来就是需要跟NVIDIA申请的,由于您当前服务器是2016的操作系统,当前是需要您进行安装的

当前GPU NVIDIA驱动分两种,计算和渲染,如果是3D渲染业务,需要安装Grid驱动,您可根据您当前的业务来进行确认

也就是可能需要装NVIDIA GRID 驱动,才能在任务管理器看到GPU,不过这也问题不大,程序跑起来之后,本地端控制台的监控可以看GPU调用,但是可能会有些延迟。

也可以在命令栏里输入nvidia-smi看资源调用

cd C:\Program Files\NVIDIA Corporation\NVSMI
nvidia-smi

就可以看到当前的GPU使用率

在腾讯云服务器上安装tensorflow-1.15-gpu(NVIDIA TESLA T4 + WINDOWS)_第7张图片

你可能感兴趣的:(深度学习,tensorflow,python,深度学习)