关于腾讯云服务器的使用,就不过多赘述,这里有一个新手向的介绍视频,因为是拿来做深度学习,所以我买的是GPU服务器,显卡是Tesla T4,这一款需要自己装显卡驱动。
腾讯云轻量应用服务器远程桌面登录挂机教程-新手教程_哔哩哔哩_bilibili
注意,在购买的时候会让你选择系统版本,可以选windows/linux之类的,这里你需要看一下你要安装的tensorflow版本。像我一开始没想太多选择的是Windows server 2019,结果装驱动的时候发现匹配的显卡驱动最低版本只支持CUDA10.1,但是我要装的tensorflow 1.15 是和10.0匹配的,后面也出现了一系列的报错,最后把系统换成支持CUDA10.0的2016才成功。
我的版本配置:显卡Tesla T4+windows server 2016+CUDA10.0+cuDNN7.4.2+tensorflow1.15-gpu+Anaconda3-2021.11
不过云服务器换系统很方便,在控制端点几下,几分钟就好,更换系统可以参照
腾讯云服务器如何更换系统? - 腾讯云开发者社区-腾讯云 (tencent.com)
安装步骤以官方教程为主,需要参照哪些都会列出来。
连上服务器后,第一件事是把IE浏览器换成EDGE,然后就和自己电脑一样,先从装显卡驱动开始。
这部分也不需要多说,官方教程写得非常明白。唯一需要注意的是要定好后续用的CUDA版本,以选择匹配的显卡型号。
GPU 云服务器 安装 NVIDIA Tesla 驱动-操作指南-文档中心-腾讯云 (tencent.com)
安装好后在设备管理器可以看到多了你的显卡,但是在任务管理器看不到,我也不知道为啥。
GPU 云服务器 安装 CUDA 驱动-操作指南-文档中心-腾讯云 (tencent.com)
CUDA也是跟官方走,选好版本
装好CUDA和Anaconda后,看一下环境变量的Path有没有缺漏,这点十分重要,关系到tf-gpu能够顺利运行。
GPU 云服务器 使用 Windows GPU 云服务器搭建深度学习环境-最佳实践-文档中心-腾讯云 (tencent.com)
官方有一个搭建深度学习环境的教程,强烈建议看一下,里面详细的教你怎么选CUDA这些东西的版本已经环境变量。
框里圈起来的5个加上Anaconda/Scrips,一共6个一个都不能少,确保都在path里。
cuDNN版本照常安装,有一个问题是选系统版本那里只有windows7/10没有server,我选的win10,最后也成功运行了,可以参考。
在命令栏输入以下代码
conda create -n tensorflow1.15-gpu python=3.7#tensorflow1.15-gpu是环境名称
这里不出意外的话会遇到HTTPError的问题,网上的意见都是换各种国内源,试了很多都行不通
之前我的.condarc文件(在C盘用户目录下,没有就conda config一下),内容都是
default_channels:
- https://anaconda.mirrors.sjtug.sjtu.edu.cn/pkgs/r
- https://anaconda.mirrors.sjtug.sjtu.edu.cn/pkgs/main
custom_channels:
conda-forge: https://anaconda.mirrors.sjtug.sjtu.edu.cn/cloud/
pytorch: https://anaconda.mirrors.sjtug.sjtu.edu.cn/cloud/
channels:
- defaults
我按照这个换了行不通(这个内容在其他电脑上安装是好使的,不知道为什么在服务器上疯狂报错)
后来翻到了这个教程,只有它有用
Anaconda建立新的环境,出现CondaHTTPError: HTTP 000 CONNECTION FAILED for url ...... 解决过程 - tianlang25 - 博客园 (cnblogs.com)
即把.condarc文件的内容换成
ssl_verify: true
show_channel_urls: true
channels:
- http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/win-64/
- http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/win-64/
创建好环境后,我们可以进行后续的安装操作了
在anaconda promp中激活环境
conda activate tensorflow1.15-gpu#从base切换到你创建的环境中
安装tensorflow
pip install tensorflow_gpu==1.15
等代码跑完就安装好了,验证是否成功安装tensorflow-gpu版本可以在虚拟环境中输入
python
import tensorflow as tf
tf.test.is_gpu_available() # 返回True则安装成功
以上就是在云服务器安装tensorflow1.15的全部过程。
只要版本是对的,就算还有一些小bug,百度报错信息基本都能解决,我的这篇教程也写了一些常见报错的解决方法。
windows10安装tensorflow-gpu_Silver_777的博客-CSDN博客_tensorflowgpu安装win10
这个系统版本有些特殊,如果你是做3D渲染,除了安装NVIDIA Tesla 驱动和CUDA 驱动驱动以外,还需要安装NVIDIA GRID 驱动
GPU 云服务器 安装 NVIDIA GRID 驱动-操作指南-文档中心-腾讯云 (tencent.com)
而且还有一些特殊的地方,像我只是深度学习,所以没有装NVIDIA GRID 驱动,虽然GPU也可以正常用,但是在任务管理器是看不到GPU资源使用情况的
客服给的解释是:
“关于您反馈的问题2018年国庆后的Win10、Server2019、Server2022、Win11这些新系统才会在任务管理器的性能页签里显示GPU模块,Server2016等低版本系统是不会显示的,在此基础上,还需要安装Grid驱动才行,而Grid License本来就是需要跟NVIDIA申请的,由于您当前服务器是2016的操作系统,当前是需要您进行安装的”
“当前GPU NVIDIA驱动分两种,计算和渲染,如果是3D渲染业务,需要安装Grid驱动,您可根据您当前的业务来进行确认”
也就是可能需要装NVIDIA GRID 驱动,才能在任务管理器看到GPU,不过这也问题不大,程序跑起来之后,本地端控制台的监控可以看GPU调用,但是可能会有些延迟。
也可以在命令栏里输入nvidia-smi看资源调用
cd C:\Program Files\NVIDIA Corporation\NVSMI
nvidia-smi
就可以看到当前的GPU使用率