使用【OpenI启智平台】进行模型训练

前言

启智平台OpenI是一个人工智能开源开放平台,提供免费GPU算力可以进行模型训练。模式是git进行项目管理,可以创建调试任务调试代码以及保存镜像,创建训练任务训练模型,也提供推理和评测,我没用过就不讲述了。后来我才明白这是好多人工智能开放平台的运行模式,不同的是,这里训练任务修改的项目代码并不会保存到项目中,关掉任务就又回到原来的样子,所以我都用它debug找到问题点和创建镜像。

下面详细介绍使用。

项目创建

首先注册平台账号与登录,平台地址如下:https://openi.org.cn/。

登录成功后就进入个人中心界面,点击右上角的+创建项目。
使用【OpenI启智平台】进行模型训练_第1张图片
也可以从Github上迁移过来,我大多通过“创建项目”创建。一般写上项目名称即可,创建成功后会有一个git链接。
使用【OpenI启智平台】进行模型训练_第2张图片
通过此git链接上传项目code和修改code。
使用【OpenI启智平台】进行模型训练_第3张图片

特别说明

训练脚本存储在 /code 中,数据集存储在 /dataset 中,预训练模型存放在运行参数 ckpt_url 中,训练输出请存储在 /model 中以供后续下载。

启智平台的训练脚本、数据集以及训练model输出存放在不同路径中,整个平台的目录如下:

root
|-- dataset
|-- code
|-- model
|-- ckpt_url
|-- ......

数据集

在数据集界面上传数据集,必须为zip或tar.gz格式的,在创建调试和训练任务时挂载上。

也可以使用公开数据集,输入数据集名称搜索,经典数据集大概率会有。
使用【OpenI启智平台】进行模型训练_第4张图片

调试任务

通过调试任务可以定制你的镜像,找到bug点。

点开云脑,新建调试任务,选择需要的配置,
使用【OpenI启智平台】进行模型训练_第5张图片
选择对应的镜像,第一次可以选一个适配的深度学习库(pytorch or tensorflow);挂载上数据集(不然就没有./data路径)。
使用【OpenI启智平台】进行模型训练_第6张图片
数据集读取路径: / d a t a s e t . . . . . /dataset..... /dataset.....
在这里插入图片描述
模型保存路径: / m o d e l . . . . . . /model...... /model......
在这里插入图片描述
(现在资源好紧张根本获取不到所以我就不配图了)调试的时候选择Jupyter即可。

运行train:

!python train.py 

下载安装库:

!pip install ……

查看文件组织:

cd root
ls

训练任务

创建同调试任务,如果在调试任务界面能训练成功,就可以直接在训练任务中运行。

“日志”项可以查看运行日志;“结果下载”提供 / r e s u l t /result /result路径下的所有文件的下载。
使用【OpenI启智平台】进行模型训练_第7张图片

你可能感兴趣的:(关于部署与软件操作,人工智能,pytorch,git)