hfai images | 自建镜像,环境配置的最后绝招

 hfai心法

章节伍 / hfai images

hfai images | 自建镜像,环境配置的最后绝招_第1张图片

本地萤火,特殊镜像

原文发布自幻方AI技术博客,点击获得更好阅读体验。

幻方 AI 发布了其沉淀多年的深度学习套件 hfai ,吸引了众多同行研究员和开发者们咨询试用。整个套件的功能较多,而熟悉掌握了这套规则,是能够轻松地调用起平台的算力资源,从而高效完成训练任务的。为此,我们专门创建了 “hfai 使用心法” 系列专辑,陆续为大家介绍 hfai 一些功能的设计思路和原理,帮助大家更快上手 hfai,游刃有余的应对深度学习作业的各项挑战。

之前的文章为大家介绍了使用 hfai venv 构建运行环境和执行任务,然而对于一些特殊的场景,如强化学习、物理仿真等,单单通过安装 Python 依赖已不足以满足需求。研究者往往会构建项目特有镜像。如何将这类需求在萤火集群上支持是幻方 AI 研发者们在思考研究的问题。

最近,hfai images 功能面世,为研究者和开发者们提供了一套解决此类方法的绝招。本期文章将为大家详细介绍。


使用场景

如上一期文章所介绍的,hfai venv 为萤火集群的用户提供了自建 Python 运行环境的能力,其支持 pip, conda 两种方式满足大部分用户环境构建的需求。

而 hfai images 解决的是一些非 Python 环境安装的问题,比如物理仿真里要安装模拟器,分子计算工具等。

幻方 AI 对集群中的镜像进行了深度优化和封装,以满足萤火集群高性能的深度学习训练要求。因此 hfai 虽支持用户的自有镜像构建,但需要符合 hfai 的规范和流程,其过程需要幻方管理员的参与和支持

在确定使用 hfai images 之前,请您审视自己的环境安装需求,确定只有自有镜像这一条路才可以后,可以和管理员联系。

使用流程

hfai images 的使用流程包含如下几步:

1

获取集群中的 base 镜像的 tar 包。我们提供了 cuda_111 和 cuda_113 两个版本,基于 Ubuntu 20.04;

2

在本地加载上述 tar 包,比如 registry.high-flyer.cn/platform/hf_training:ubuntu2004-cu113-20221019;

3

基于上述 base 镜像构建自己的镜像(比如 python:3.8-alpine);

4

docker save 自己的镜像,保存成 tar 包(比如 python-alpine.tar),通过 hfai workspace 上传到萤火集群;

5

打开 Studio 进入 workspace 目录,使用 hfai images load 命令(比如 hfai images load python-alpine.tar);

6

等待完成,可以通过 hfai images list 命令查看;

7

等状态变成 loaded 之后,您才可以通过 hfai python test.py -- -n 1 --image registry.high-flyer.cn/hfai/python:3.8-alpine 来使用您所构建的镜像。

镜像加载完成后会返回如下结果:

hfai images | 自建镜像,环境配置的最后绝招_第2张图片

本章结束


High-Flyer AI

我们希望让更多“想象力”和“创造力”生长。期待与各方科学家及开发者们一同共建AI时代。

幻方 | 技术博客幻方AI专注前沿科技研发,以AI技术激发创造力和想象力,让人类更多梦想变成现实。幻方AI包含「萤火」深度学习训练平台 、幻方量化(使用AI进行投资的对冲基金)、AI基础科学研究。https://www.high-flyer.cn/blog/

你可能感兴趣的:(幻方AI-入门,hfai深度学习套件,幻方AI训练平台,人工智能,python)