美团深度学习平台初体验&推荐

最近参加了一个机器阅读理解的比赛,然后在我的笔记本GPU——1050ti——上试着跑了一下baseline系统,就傻眼了——显存不足!然后去问一下委员会,得到的答复是,baseline系统起码需要10GB以上的显存,而且此时跑一个epoch至少要一个多小时。。。
显存问题确实可以解决——大不了batchsize设成1,体验一下原汁原味的SGD——但是这是要一个epoch跑好几天的节奏啊!
无奈之下开始将目光转向云服务。
谷歌亚马逊貌似有免费试用的?哈?visa?
国内貌似有阿里云和腾讯云?这个价格。。
然后我就发现了——
支持4块P40且免费的美团深度学习平台!
一块P40就是24GB显存啊。。。看了一眼腾讯云的价格,4块P40定价赫然为18000元/月,61.76元/时。
当然,这个美团的云服务有限制,你没有办法直接在云主机上进行操作,只能把文件和代码传到云上进行定制操作,虽然对于专业人员来说这就相当于是一个计算API,灵活度很差,但是对于不熟悉linux分布式系统的人来说这反而算是便利。
不过,此平台的最大缺陷就是数据安全性和私密性问题,毕竟连控制自己数据存储位置的能力都没有,所以,这个平台大概只适用于不必保护数据的学生了。
接下来就来详细说说该平台如何使用吧!
官方文档写的已经挺好,所以文档中有的我就不赘述了。
平台主要分为三部分:文件、任务和镜像。
镜像就是程序的运行环境,可根据需要很方便地定制,例如我需要的tensorflow1.4+python3,只需要两行代码:

From mos-tensorflow1.4.0-cudnn6-cuda8.0-centos7
ENV MOS_DEFAULT_PYTHON_VERSION 3

初始镜像有tensorflow和caffee,其他的运行环境需要定制镜像。
文件系统是hdfs,也就是hadoop分布式文件系统,在运行之前你并不知道你的文件会被放到哪里,但是在平台运行代码时会给代码传递命令行参数,其中就包括’data_dir’和’model_dir’,你需要在代码中通过解析命令行参数来获取文件的位置。
这时,一定要注意,python自带的io操作API是无法对平台的文件系统进行操作的!不仅官方文档中的open函数不可以,os.path.exist函数也不可以!(我会说我因为这个问题卡了一下午么。。。)要进行文件操作,一定要用tensorflow的文件操作!也就是:
open->tf.gfile.Open
os.path.exsit->tf.gfile.Exsits
……
当然,合并路径用的os.path.join还是可以用的。
任务就是你要定制的程序执行任务,可以选择镜像、计算资源、执行代码文件、数据文件夹、模型保存文件夹和命令行参数等,具体的参见官方文档。
设置好任务后,就可以开始执行了,执行前还需要等待调度,快的话不到一分钟,慢的话一般也在五分钟以内,然后就可以感受你的数据和代码跑在96GB显存的设备上的快感了!
官网上写的免费活动日期截至到2017.12.31,但是实际上目前还是可以免费用的,不知道会持续到什么时候,总之趁着免费赶紧用吧,不过看美团云的GPU服务的价格,就算免费活动结束了应该也必其他的云服务便宜吧。
ps:使用云服务之前需要实名认证,要拍一张拿着身份证的照片,而且还比较严格,我第一次拍的照片用前置摄像头自己拍的,不是很清晰,就被打回来了。。

你可能感兴趣的:(深度学习,机器学习,云服务,云服务,深度学习)