租用云GPU服务器

最近训练深度学习模型,CPU比GPU慢太多,一想又用不了太长时间,于是准备在网上租一个云,刚好看到百度云上GPU服务器双十一特价,比较便宜的NVIDIA Tesla T4,2560个CUDA核,双十一优惠726包月。

租用云GPU服务器_第1张图片
图片.png

别误会,这不是广告!!!

想了想,还是先买个按小时计费的体验一下吧。NVIDIA Tesla T4 8G最便宜的机型约4.73元/小时。下面来分享一下试用体验。主要根据以下入门文档操作:https://cloud.baidu.com/doc/GPU/s/2jwvxmkz8

创建虚拟机

第一步:注册用户(此处略过)。

第二步:创建实例:

  • 付费方式选择了后付费(先付费是包月/包年,后付费是按小时付费)

  • 配置方面,重点在选择机型,一开始选最便宜的就好,架构选择异构计算GPU、FPGA,型号如下所示。

  • 镜像选择GPU镜像中的16.04 LTS amd64 (64bit)-CUDA10.0镜像,我使用的PyTorch需要CUDA10.0以上才能支持。

  • 弹性资源中,选择“购买弹性公网IP”,否则,没有外网IP,无法使用ssh连接服务器,只能在网页上通过VNC连接。

配置完成后,远程虚拟机就直接被开启了,可以在浏览器中用VNC连接,效果如下图所示:

租用云GPU服务器_第2张图片

安装工具

连接之后,安装了一些深度学习相关的工具:

先用ssh连接远程服务器:

$ ssh root@公网IP地址

安装常用工具

$ apt install unzip
$ apt install python3-pip # python包管理工具

更换pip源(如不更换pip安装软件会非常慢)

$ mkdir ~/.pip
$ vi ~/.pip/pip.conf

输入以下内容:

[global]
index-url = http://mirrors.aliyun.com/pypi/simple/
[install]
trusted-host=mirrors.aliyun.com

安装深度学习工具pytorch

$ pip3 install torch
$ pip3 install torchvision

看一下torch是否可用,在Python程序中运行:

import torch
torch.cuda.is_available()

如果输入为True,则CUDA已经可以正常使用了。训练pytorch-example中的mnist,大概三五分钟跑完。

其它常用库(版本匹配,比较麻烦,也可以直接安装conda)

$ apt install libsm6
$ pip3 install opencv-python
$ pip3 install matplotlib==3.0
$ pip3 install pandas==0.22.0
$ pip3 install scikit-image==0.14.4
$ pip3 install Cython

安装Jupyter 有些镜像本身包含jupyter notebook,可跳过安装,直接运行即可。

$ pip3 install jupyter

启动jupyter notebook

$ jupyter notebook --allow-root --ip 0.0.0.0

注意设置--ip开启远程访问,否则可能无法连接;如果还连接不上,建议在安全组中查看8888端口是否允许访问。

查看GPU使用情况

$ nvidia-smi
$ nvcc-V
租用云GPU服务器_第3张图片

总结

  • 环境是Ubuntu 16.04加CUDA,系统比较干净,Apt软件源也已配好;使用Docker或者Python需要自行安装。

  • 用Ssh+Jupyter方式连接服务器,和本地开发几乎无差异。

  • 用百度智能云APP可以随时查看收费情况。

  • 最小计费单位为分钟,只要创建了实例(虚拟机),无论开机还是关机,只要不释放,都会计费,云磁盘CDS和弹性公网IP也一样。也就是说,如果释放了实例,之前搭建的环境就没有了,如果不释放就要收费。

  • 百度云支持用当前环境创建镜像,即使用40G的系统盘生成新镜像,一次生成时间大概十分钟左右。建议将常用的环境制作成镜像,这样既能保留开发环境,相对于不释放资源又便宜得多。

  • GPU服务器相对较贵,从攻略看,亚马逊、美团服务器用法都大同小异,主要看价格。

  • 对于熟悉Linux的程序员来说,租用服务器比使用别人搭建的Web服务(如SinaAppEngine)好用得多。

  • 如果某天你觉得租用的机器速度还不够快,可以申请一台顶配的服务器,用自己的镜像启动,挂上云盘的数据直接跑,就像运行在自家机器上一样,更换机型非常方便。

  • 最终找到的比较省钱的方式是:把开发环境做成镜像,数据存储在云盘上,每次使用前申请虚拟机,用完马上释放。这样不使用时,只需要支付镜像和云盘的存储费用,大概每100G每天一块多钱。

  • 如果长时间使用,用便宜的主机处理下载、转码、配置环境等日常事务,而GPU主机只做运算,通过挂载云磁盘CDS共享数据。

  • 虽然优惠时包月比按小时租用便宜很多也省心,不过还是建议新手一开始按小时租用,因为一开始不确定用多少,怎么用,按时租用可以随时调整机型策略,更加灵活。

你可能感兴趣的:(租用云GPU服务器)