前言
一、滴滴云GPU配置选择及创建
二、GPU服务器的登录
三、GPU环境配置
1、Anaconda的下载
2、Anaconda的安装
3、conda创建自己的python环境
4、安装Pytorch的GPU环境
四、滴滴云保存快照、删除服务器
五、使用快照创建GPU服务器的问题
六、总结
因为最近忙着搞毕业设计,做的是X线胸片的多标签分类问题(22万张图片),需要使用GPU来跑实验,然而因为疫情的原因,只能在线使用GPU跑实验,贫穷的我买不起GTX显卡,同时学校的GPU集群好像出了一点问题,想到之前租过滴滴云的GPU服务器,所以这一次决定再花一些money在滴滴云上租GPU跑实验,说个题外话,选择滴滴云之前对比过其他几个云(阿里云、腾讯云、华为云),奈何它们太贵了(土豪请随意,请用钱砸死我吧!),最后货比三家,我选择了滴滴云,普通配置大概3块多一个小时。(越来越像滴滴云的一个硬广,滴滴云打钱!!!),当然,玩归玩、闹归闹,不拿学习开玩笑,下面进入正题!
进入滴滴云的官网(租GPU服务器,需要个人信息验证),点击创建云服务器(DC2)按钮,就会到选择配置的界面
我介绍一下我的配置(如果觉得看文字太麻烦,直接看我下面的配置截图就行了):
付费方式:按时长(因为我穷,都是跑完几个小时的实验,保存快照,然后注销掉)
可用区:广州(因为我家在南方,所以离广州近一些)
服务器类型:选择GPU服务器 通用型P4(GPU是Tesla P4,反正我感觉跑大部分实验都够用)
镜像:选择标准镜像ubuntu 16.04 CUDA-10.0 (我主要是想避免显卡驱动和cuda之类的不匹配问题,不然要折腾好久,职业玩家请随意,当然职业玩家也不会来看我这篇博文orz)
注:后面有快照镜像的选项,需要自己之前保存过快照,才能够进行选择(这个功能比较好,因为创建一次GPU服务器,注销之前可以保存快照,然后下一次再创建GPU服务器时又可以使用上一次的快照,上一次的文件都会在里面,相当于玩游戏的存档公能)
配置(元/小时):我选的是2核cpu、P4 GPU、4G内存、8G显存的(8G显存一般的实验都是够用的,如果你的需求高,可以把配置调高一些)
系统盘:默认 高效云盘 80GB (因为我自己的数据集就11G左右,所以对我来说够用)
数据盘:无(我没有选择数据盘,我其实没太搞清楚系统盘和数据盘有啥区别,呜呜呜!)
网络:默认
带宽:我选择的是按使用流量,带宽上限按自己需求定(因为我主要是跑实验,对网络的需求不是很大)
安全组:默认
登录方式:选择密码(设置自己的密码,密码别忘了)
数量:1台
设置名称:滴滴云打钱
添加标签:默认
下面是我配置的截图:
然后点击立即创建就好!
创建成功之后,我们需要通过一个软件来使用SSH连接到GPU服务器,我使用的MobaXterm,自己可以到网上去下载,当然也有其他软件(滴滴云有自带的命令行界面,但我觉得不太好用,就不介绍了)
安装好MobaXterm,双击打开:首先点击左上角的Session===>进入Session settings界面 点击SSH ===>在Remote host中填的GPU服务器的公网ip。最后点击OK。
GPU服务器的公网ip在你创建GPU服务器成功后的页面有显示:
在MobaXterm中SSH的Session创建成功之后,login as填dc2-user 密码填之前配置GPU服务器登陆方式时设置的密码
登陆成功之后的界面:
使用wget命令,后面的链接可以在清华源的Anaconda镜像https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/中找相应版本进行更改,速度比Anaconda官网快多了)
wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2019.10-Linux-x86_64.sh
在下载Anaconda安装包的目录下,使用bash命令进行安装(如果你不知道你下载在哪个目录下,那你直接使用该命令安装就好了)
bash Anaconda3-2019.10-Linux-x86_64.sh
然后会有yes和no的选项弹出 :问你是否同意该协议内容 输入:yes
接着是输入安装的目录,这个地方不用输入直接回车就好了(它会选择默认目录进行安装,如果你想安装在你指定目录下也可以填上你想要安装目录的路径)
下面这个地方同样输入:yes
最后一步:更新配置文件
#更新配置文件
source ~/.bashrc
#查看版本信息
conda -V
然后输入conda -V命令显示版本信息,如果能够正常显示,就说明安装成功了!
至于Anaconda有什么用,我的感觉是Anaconda可以比较方便的创建和管理多个python环境。
此处我创建一个名字为mypytorch_3.6 ,python版本为3.6的python环境 (环境名字可以按照你自己的需求取)
创建成功之后使用activate命令切换到该环境,并添加清华源镜像(关于conda的一些基础命令可以自行谷歌查找)
conda create -n mypytorch_3.6 python=3.6 #创建python环境
source activate mypytorch_3.6 #切换到该环境
#添加清华源镜像
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes
我使用的是Pytorch框架,可以到pytorch官网找到conda安装pytorch的命令(但是最近好像官网被墙了,进不去了?)
其实感觉Anaconda真的挺方便的,直接使用一个命令,帮你把pytorch的相关GPU环境所需的cuda、cudnn下载并安装好。
如果想安装TensorFlow的GPU环境可以自行谷歌查找相应的命令。
#下载并安装pytorch的GPU环境命令(conda命令自己会下载安装好相应的cuda和cudnn版本,不用自己去折腾)
conda install pytorch torchvision cudatoolkit=10.0
安装结束后,使用torch.cuda.is_available()判断是否成功安装
#使用python
python
#导入torch包
import torch
#看pytorch的GPU环境是否成功搭建
print(torch.cuda.is_available())
如果输入命令后,显示如下结果,则说明Pytorch的GPU环境安装成功了!
(注意:一定要在你自己创建的python环境中使用该命令,我创建的python环境叫mypytorch_3.6,上面安装的Pytorch的GPU环境所需的包都安装在我的mypytorch_3.6环境中,所以如果你下次要用pytorch环境,首先应该使用source activate mypytorch_3.6命令,切换到mypytorch_3.6环境中。如果不切换环境,默认是在base环境中)
点击快照中的创建快照,这样就可以保存本次的快照,然后下次再创建GPU服务器时选择快照的方式进行创建!
创建完快照之后,就可以删除服务器了(注意:只有删除服务器,才会停止收费!)
当我重新使用快照创建一个GPU服务器时出现了一些问题:
我在mypytorch环境中使用torch.cuda.is_available()查看是否可以使用GPU,发现得到的是False!(明明上一次保存快照的时候是可以的!)
然后使用nvidia-smi命令查看显卡状态,发现找不到显卡驱动!!!(XX云臭鱼烂虾orz,果然没钱就要受罪,穷是原罪,呜呜呜!!!)
解决:
#1、使用cd /usr/src 中查看显卡驱动的版本号(我的是440.36)
cd /usr/src
#下载安装dkms
sudo apt-get install dkms
#安装显卡驱动(后面的440.36记得改成你自己驱动的版本号)
sudo dkms install -m nvidia -v 440.36
安装结束之后,使用nvidia-smi查看:成功显示!
之后再次保存该快照之后,下次再导入快照创建GPU就没有出现过刚刚找不到显卡驱动那个问题了!(我也不是很清楚是什么原因)
为了写这篇博客花了大半天,同时租了滴滴云GPU服务器好几个小时,从头演示截图一遍,写完之后只感觉:我是男神,我好累!。当然玩笑归玩笑,本博客记录了我自己搭建GPU服务器一个过程,希望能帮助想要在Linux中搭建GPU环境的人少走一些弯路(我最初就是没有看到这一类相关教程,花费了好多time和money去配置显卡驱动、cuda、cudnn之类的)。本博文只作为学习用途,并不涉及任何商业推广相关的行为(滴滴云请打钱!),如果觉得对你有所帮助请点个赞吧!如果对该博文有什么疑问,欢迎评论区拍砖!
未经允许,请勿随意转载!