如何在AutoDL跑起一个深度学习模型

租用GPU服务器

AutoDL-品质GPU租用平台-租GPU就上AutoDL

在算力市场选择服务器,选择所要跑的代码对应版本的pytorch或tensorflow环境和版本。

由于我们现在还没有配置好,先关机,再选择无卡模式开机,比较便宜。

上传数据集

如何在AutoDL跑起一个深度学习模型_第1张图片

数据一般要放在数据盘,也就是autodl-tmp文件夹下。

AuToDL官方文档给的传输方式是用XShell和Xftp7(都是教育免费的),但下载好后发现其原理就是 SSH+SFPT,用FlashFXP或其他文件传输软件也可以(尽量用SFPT,Linux默认不支持FPT,需要额外安装服务)。因为官网有XShell的教程,我就只贴FlashFXP 

如何在AutoDL跑起一个深度学习模型_第2张图片

如果文件太大,可将其分割,上传后合并(如果不分割可能面多次临传输失败并需全部重传的风险)。但需注意:合并时,分割文件和总文件同时存在,占用2倍空间。以下分别是分割和合并命令。注意split是Linux命令,在windows下使用应下载GetGnuWin32(已经很老了,维护较少)MSYS2(需搭配MingGW)、 Cygwin,以使用split。

#分割命令
split -b 500m CVPR2016.rar log_

#合并命令
cat log_* > CVPR2016.rar

#检测MD5
#Windows(尽管装了但没有md5sum)
certutil -hashfile filename MD5
#Linux
md5sum filename

#解压(e解压到当前文件夹;x解压到指定路径下)
unrar e sourcefile destPath

#ps:unrar下载:
apt-get update
apt-get install rar unrar

传输失败的案例,原因是没有传到数据盘,系统盘满了。而且恢复后文件依然错误。 

如何在AutoDL跑起一个深度学习模型_第3张图片

搭建运行环境

用VScode配置SSH即可在本机编辑程序并运行。

如何在AutoDL跑起一个深度学习模型_第4张图片

AuToDL已经帮我们搭建了miniconda和pytorch环境。我们需要注意的是尽量包版本与原程序一致。否则会发生很多冲突。

conda init bash

重开一个bash(init有提示,必须重开),列出现有环境,进入base

conda env list
conda activate base

 如果源代码提供了requirements.txt.

#制作
pip freeze > requirements.txt

#使用
conda install --yes --file requirements.txt

如果源代码提供了requirements.yml

#制作
conda env export > requirements.yml

#使用
conda env create -f requirements.yml

train和test

看看作者有没有提供demo.pth.tar,这是保存的训练好的模型,可以直接测试。虽然它以tar结尾,但是不能解压,会被torch直接load。

你可能感兴趣的:(深度学习,深度学习,tensorflow,pytorch)