手把手教你:如何使用滴滴云搭建GPU环境

目录

前言

一、滴滴云GPU配置选择及创建

二、GPU服务器的登录

三、GPU环境配置

1、Anaconda的下载

2、Anaconda的安装

3、conda创建自己的python环境

4、安装Pytorch的GPU环境

四、滴滴云保存快照、删除服务器

五、使用快照创建GPU服务器的问题

六、总结


 

前言

 因为最近忙着搞毕业设计,做的是X线胸片的多标签分类问题(22万张图片),需要使用GPU来跑实验,然而因为疫情的原因,只能在线使用GPU跑实验,贫穷的我买不起GTX显卡,同时学校的GPU集群好像出了一点问题,想到之前租过滴滴云的GPU服务器,所以这一次决定再花一些money在滴滴云上租GPU跑实验,说个题外话,选择滴滴云之前对比过其他几个云(阿里云、腾讯云、华为云),奈何它们太贵了(土豪请随意,请用钱砸死我吧!),最后货比三家,我选择了滴滴云,普通配置大概3块多一个小时。(越来越像滴滴云的一个硬广,滴滴云打钱!!!),当然,玩归玩、闹归闹,不拿学习开玩笑,下面进入正题!

一、滴滴云GPU配置选择及创建

          进入滴滴云的官网(租GPU服务器,需要个人信息验证),点击创建云服务器(DC2)按钮,就会到选择配置的界面

我介绍一下我的配置(如果觉得看文字太麻烦,直接看我下面的配置截图就行了):

付费方式:按时长(因为我穷,都是跑完几个小时的实验,保存快照,然后注销掉)

可用区:广州(因为我家在南方,所以离广州近一些)

服务器类型:选择GPU服务器 通用型P4(GPU是Tesla P4,反正我感觉跑大部分实验都够用)

镜像:选择标准镜像ubuntu 16.04 CUDA-10.0 (我主要是想避免显卡驱动和cuda之类的不匹配问题,不然要折腾好久,职业玩家请随意,当然职业玩家也不会来看我这篇博文orz)

注:后面有快照镜像的选项,需要自己之前保存过快照,才能够进行选择(这个功能比较好,因为创建一次GPU服务器,注销之前可以保存快照,然后下一次再创建GPU服务器时又可以使用上一次的快照,上一次的文件都会在里面,相当于玩游戏的存档公能)

 配置(元/小时):我选的是2核cpu、P4 GPU、4G内存、8G显存的(8G显存一般的实验都是够用的,如果你的需求高,可以把配置调高一些)

系统盘:默认 高效云盘 80GB (因为我自己的数据集就11G左右,所以对我来说够用)

数据盘:无(我没有选择数据盘,我其实没太搞清楚系统盘和数据盘有啥区别,呜呜呜!)

网络:默认

带宽:我选择的是按使用流量,带宽上限按自己需求定(因为我主要是跑实验,对网络的需求不是很大)

安全组:默认

登录方式:选择密码(设置自己的密码,密码别忘了

数量:1台

设置名称:滴滴云打钱

添加标签:默认

下面是我配置的截图:

手把手教你:如何使用滴滴云搭建GPU环境_第1张图片

 

手把手教你:如何使用滴滴云搭建GPU环境_第2张图片

 然后点击立即创建就好!

二、GPU服务器的登录

创建成功之后,我们需要通过一个软件来使用SSH连接到GPU服务器,我使用的MobaXterm,自己可以到网上去下载,当然也有其他软件(滴滴云有自带的命令行界面,但我觉得不太好用,就不介绍了)

安装好MobaXterm,双击打开:首先点击左上角的Session===>进入Session settings界面 点击SSH ===>在Remote host中填的GPU服务器的公网ip。最后点击OK。

手把手教你:如何使用滴滴云搭建GPU环境_第3张图片

 GPU服务器的公网ip在你创建GPU服务器成功后的页面有显示:

手把手教你:如何使用滴滴云搭建GPU环境_第4张图片

在MobaXterm中SSH的Session创建成功之后,login as填dc2-user 密码填之前配置GPU服务器登陆方式时设置的密码

手把手教你:如何使用滴滴云搭建GPU环境_第5张图片

 登陆成功之后的界面:

手把手教你:如何使用滴滴云搭建GPU环境_第6张图片

 三、GPU环境配置

1、Anaconda的下载

使用wget命令,后面的链接可以在清华源的Anaconda镜像https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/中找相应版本进行更改,速度比Anaconda官网快多了)

wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2019.10-Linux-x86_64.sh

      2、Anaconda的安装

在下载Anaconda安装包的目录下,使用bash命令进行安装(如果你不知道你下载在哪个目录下,那你直接使用该命令安装就好了)

bash Anaconda3-2019.10-Linux-x86_64.sh

 然后会有yes和no的选项弹出 :问你是否同意该协议内容    输入:yes

接着是输入安装的目录,这个地方不用输入直接回车就好了(它会选择默认目录进行安装,如果你想安装在你指定目录下也可以填上你想要安装目录的路径)

手把手教你:如何使用滴滴云搭建GPU环境_第7张图片

 下面这个地方同样输入:yes

手把手教你:如何使用滴滴云搭建GPU环境_第8张图片

 最后一步:更新配置文件

#更新配置文件
source ~/.bashrc

#查看版本信息
conda -V

 然后输入conda -V命令显示版本信息,如果能够正常显示,就说明安装成功了!

至于Anaconda有什么用,我的感觉是Anaconda可以比较方便的创建和管理多个python环境。

 

3、conda创建自己的python环境

此处我创建一个名字为mypytorch_3.6 ,python版本为3.6的python环境 (环境名字可以按照你自己的需求取)

创建成功之后使用activate命令切换到该环境,并添加清华源镜像(关于conda的一些基础命令可以自行谷歌查找)

conda create -n mypytorch_3.6 python=3.6       #创建python环境
source activate mypytorch_3.6                  #切换到该环境

#添加清华源镜像
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes

4、安装Pytorch的GPU环境

我使用的是Pytorch框架,可以到pytorch官网找到conda安装pytorch的命令(但是最近好像官网被墙了,进不去了?)

其实感觉Anaconda真的挺方便的,直接使用一个命令,帮你把pytorch的相关GPU环境所需的cuda、cudnn下载并安装好。

如果想安装TensorFlow的GPU环境可以自行谷歌查找相应的命令。

#下载并安装pytorch的GPU环境命令(conda命令自己会下载安装好相应的cuda和cudnn版本,不用自己去折腾)
conda install pytorch torchvision cudatoolkit=10.0

安装结束后,使用torch.cuda.is_available()判断是否成功安装

#使用python
python
#导入torch包
import torch
#看pytorch的GPU环境是否成功搭建
print(torch.cuda.is_available())

如果输入命令后,显示如下结果,则说明Pytorch的GPU环境安装成功了!

(注意:一定要在你自己创建的python环境中使用该命令,我创建的python环境叫mypytorch_3.6,上面安装的Pytorch的GPU环境所需的包都安装在我的mypytorch_3.6环境中,所以如果你下次要用pytorch环境,首先应该使用source activate mypytorch_3.6命令,切换到mypytorch_3.6环境中。如果不切换环境,默认是在base环境中)

手把手教你:如何使用滴滴云搭建GPU环境_第9张图片

四、滴滴云保存快照、删除服务器

点击快照中的创建快照,这样就可以保存本次的快照,然后下次再创建GPU服务器时选择快照的方式进行创建!

手把手教你:如何使用滴滴云搭建GPU环境_第10张图片

 创建完快照之后,就可以删除服务器了(注意:只有删除服务器,才会停止收费!

手把手教你:如何使用滴滴云搭建GPU环境_第11张图片

五、使用快照创建GPU服务器的问题

当我重新使用快照创建一个GPU服务器时出现了一些问题:

我在mypytorch环境中使用torch.cuda.is_available()查看是否可以使用GPU,发现得到的是False!(明明上一次保存快照的时候是可以的!)

手把手教你:如何使用滴滴云搭建GPU环境_第12张图片

然后使用nvidia-smi命令查看显卡状态,发现找不到显卡驱动!!!(XX云臭鱼烂虾orz,果然没钱就要受罪,穷是原罪,呜呜呜!!!)

手把手教你:如何使用滴滴云搭建GPU环境_第13张图片

解决:

#1、使用cd  /usr/src 中查看显卡驱动的版本号(我的是440.36)
cd /usr/src 

手把手教你:如何使用滴滴云搭建GPU环境_第14张图片

#下载安装dkms
sudo apt-get install dkms
#安装显卡驱动(后面的440.36记得改成你自己驱动的版本号)
sudo dkms install -m nvidia -v 440.36

安装结束之后,使用nvidia-smi查看:成功显示!

手把手教你:如何使用滴滴云搭建GPU环境_第15张图片

之后再次保存该快照之后,下次再导入快照创建GPU就没有出现过刚刚找不到显卡驱动那个问题了!(我也不是很清楚是什么原因)

六、总结

为了写这篇博客花了大半天,同时租了滴滴云GPU服务器好几个小时,从头演示截图一遍,写完之后只感觉:我是男神,我好累!。当然玩笑归玩笑,本博客记录了我自己搭建GPU服务器一个过程,希望能帮助想要在Linux中搭建GPU环境的人少走一些弯路(我最初就是没有看到这一类相关教程,花费了好多time和money去配置显卡驱动、cuda、cudnn之类的)。本博文只作为学习用途,并不涉及任何商业推广相关的行为(滴滴云请打钱!),如果觉得对你有所帮助请点个赞吧!如果对该博文有什么疑问,欢迎评论区拍砖!

未经允许,请勿随意转载!

你可能感兴趣的:(深度学习,深度学习,pytorch,机器学习,linux,服务器)