一些GPU云平台使用体验

20221114更新

之前提到会试试AutoDL,发现AutoDL的实例数据能保存30天,之前说过恒源云只会保存24小时,否则就直接清空了,这是比较麻烦的一点,有时用完就需要自己保存下来,或者在24小时之内再租用,以重置24h,所以我准备用一段时间AutoDL看看情况~

以下为之前的内容


开门见山的说,我推荐恒源云这个平台,由于平台邀请新人会有奖励,我就先把我的注册链接放这吧(恒源云注册),不过你自己官网注册也可以,不强求hh。

以下均是个人的一些体验,不免会有些错误认知~

Google Colab

写这篇文章的原因主要是被某些平台的惊讶到了,在去年开始入门深度学习时,作为一个悲催的自学转行者,组里也没有个GPU,当时先知道的google colab,主要因为免费,那时候貌似是Tesla P100(FP16: 19.05 TFLOPS / FP32: 9.526 TFLOPS),还够用。但是用下来最蛋疼的是 ① 过一段时间就得动一下,不然就说长时间没有操作,给你断了。就白跑了(ˉ▽ˉ;)…(也有解决方法是弄个脚本吧,可以搜一下)② 用多了还不给你用了,说达到GPU使用量限额,无语了。其它的还有在线写代码以及看源码都不太方便,比较习惯用vscode。就很少用了,刚看了一下现在分配到的GPU是Tesla T4(FP16: 65.13 TFLOPS / FP32: 8.141 TFLOPS)(注:这里T4的FP16应该是16 TFLOPS左右–参考第二个回答)

一些GPU云平台使用体验_第1张图片

Kaggle

然后就是kaggle,一个星期免费40h的GPU使用时间,同样的问题就是很难长时间运行,说在 Commit 模式下,使用GPU 的代码最多只能连续运行9个小时,超过9个小时强行终止。网上也有一些解决办法,反正我是不想折腾了,现在提供的GPU为Tesla P100 PCIe 16GB:

一些GPU云平台使用体验_第2张图片

注:上面这两提供的CPU都是单核的,os.cpu_count() = 2,就是说DataLoader的num_workers最多写2。另外都是需要的,下载上传本地数据体验下来都挺慢的。不过值得说的优点就是下载网络上的资源比如国外网站上的数据集和文件,或者pip安装包啥的还真的是很快的。

再之后接触到了GPU租用的一些平台

矩池云

第一个使用的是叫矩池云(价格)的,也是在哪看到别人推荐来着,一开始也不太懂,用着也还行吧,会有一个5G的免费网盘,租用的任一机器里访问和修改网盘里的数据,这点其实挺好的,不用数据传来传去的。但是我最近再看这网站,发现当时年少无知没经过对比,贵的离谱啊,无语了,种类也偏少,Tesla V100-16GB(FP16: 28.26 TFLOPS / FP32: 14.13 TFLOPS )6元/h,RTX 3090 24GB(FP16: 35.58 TFLOPS / FP32: 35.58 TFLOPS )5元/h,意思就是我如果用一天16GB的V100,就要上百了?!

恒源云

第二个使用的直接就是恒源云(价格)了,当时也是在哪里看到了推荐,说新用户注册送100元的代金券,就试了一下(其实其中有一个满200可用的40元券,以及当时能用代金券的机子普遍会贵点,现在感觉是一个价)。可以对比一下,它的Tesla V100-PCIE-16GB只要1.5元/h,RTX 3090 1.99元/h,2块钱在矩池云只能租到NVIDIA RTX A2000 12GB(FP16: 7.987 TFLOPS / FP32: 7.987 TFLOPS),而恒源云的NVIDIA RTX A4000 16GB(FP16: 19.17 TFLOPS / FP32: 19.17 TFLOPS)也才1.2元/h。平台内置提供了很多公共数据集(每个平台应该都有),直接cp到自己位置就行,避免国内服务器下载慢的问题,用下来各方面都还可以,主要关心的还是价格方面,连接的步骤也很简单,我一般都是vscode的Remote-SSH直接连接到主机就行,安装过的库和一些设置在你主动释放前会一直保存在控制台(但10天未启动会自动释放),还行。唯一不太方便的地方感觉就是数据传来传去真不方便,如果训练完不传出来保存的话,停止使用24h后数据就会被清空。

一些GPU云平台使用体验_第3张图片

hh主要恒源云比较好用,就没怎么尝试其它平台了

九天 • 毕昇

九天 • 毕昇刚看了下,新用户注册给500算力豆,在线的vscode/jupyter
一些GPU云平台使用体验_第4张图片

创建了一个实例,8核32G那个(如果要用的话肯定得8核,核数太小会拖累速度)

一些GPU云平台使用体验_第5张图片

Tesla V100S-PCIe 32GB(FP16: 32.71 TFLOPS,FP32: 16.35 TFLOPS),挺不错的啊,显存也挺大的,不知道数据传输方不方便,后续可能用用试试。但是只有500算力豆,一小时20算力豆只能25个小时,看到说每成功邀请一位新用户注册,将赢取500个算力豆,对方将赢取1000个算力豆,算力豆有效期均为180天,原来被邀请竟然也会多500算力豆,谁给我一个邀请码,我的邀请码是这个(●ˇ∀ˇ●)。

极链AI云

之后还了解到了几个平台,比如极链AI云

一些GPU云平台使用体验_第6张图片

3090为4.1元/h

MistGPU

一些GPU云平台使用体验_第7张图片
3090 4.5元/h

AutoDL

一些GPU云平台使用体验_第8张图片

这个价格看着也还挺合理的,可以考虑

Featurize

一些GPU云平台使用体验_第9张图片

长租最低指的是按月来,一个月一千多。。。按天租便宜不了多少,这个不考虑了

智星云

一些GPU云平台使用体验_第10张图片

算了吧,这个也不考虑了

总结

1、感觉还是比较幸运的,不然一直用矩池云的话早亏到家了,恒源云用下来确实还可以,花了也快有300块钱了,如果是学生认证的话会更优惠一点,90天内累计充值的金额大于50 / 300 / 600分别会给青铜(93折) / 白银(9折) / 黄金会员(85折)
一些GPU云平台使用体验_第11张图片

但是我本人还没有去认证,需要填的比较详细,还得学生证,不知道安不安全。

2、后续可能用用九天 • 毕昇和AutoDL,前者看看有没有搞到豆的省钱方法。毕竟白嫖才是真香!

3、文中显卡的算力数据均来自芯参数评测,半精度不知道准不准。

4、要是大家有更加合适的平台可以分享一下呀o( ̄▽ ̄)ブ

你可能感兴趣的:(深度学习,云计算,服务器)