幻方AI年度总结:2022我们坚持了一件事情

2022,「幻方萤火」在成为一个更好用的AI训练平台上,依然在跑步前进,努力探索和尝试。

过去的一年,「萤火二号」取得了多 800 口交换机互联核心网络路由算法的软硬件架构革新,突破了新的物理限制。

使用体验上:

  • 更大:集群扩容,算力翻倍;

  • 更快:研发并上线了 haiscale 工具库,更优算子与并行通信,加速模型训练 50%~100%;

  • 更稳:集群连续 12 个月满载运行,平均占用率达到 96% 以上。

「萤火二号」全年运行任务 135万个,共计 5674 万 GPU 时,其中用于免费支持科研的闲时算力高达 1533万 GPU 时,占 27%。

这一年,我们坚持了一件事情——用 BLOG 纪录下了技术研发上的点滴经验或者成果,并且在各个平台上同步分享给了关注我们的 AI 学者与工程师们。在这个过程中,我们收获了非常多宝贵的建议以及分享。未来,我们仍将持续这个传统,让更多的思想交流碰撞出火花。

2022这一路留下了一些或许有益的东西,在农历年翻篇之前,允许我们呈上一份整理回顾。


平台探秘

「萤火二号」AI 训练平台以“任务级分时共享”为核心理念 ,调度系统秒级响应,同时,平台配备强大的软件层支持:高性能算子库(hfai.nn)、分布式训练通讯框架(hfreduce)、专为 AI 开发而生的大容量高带宽文件系统(3FS),让AI 模型能自如拓展到多节点之上,进行大规模并行训练,体验极致性能。

haiscale (Highflyer AI Scale) 是一个轻量级的高性能并行训练工具库,其整合了上述由幻方 AI 多年研发积累的优化经验,能够帮助用户更加高效、便捷地在自有的大规模集群上训练模型。

幻方AI年度总结:2022我们坚持了一件事情_第1张图片

幻方萤火 | 高速读写文件系统 3FS

幻方萤火 | 模型并行训练工具 hfreduce

幻方萤火 | 高性能数据格式 ffrecord

GTC 2022 | 以分时调度共享AI超算,弹性运行超大规模深度学习训练

幻方萤火 | 性能卓越的深度学习算子 hfai.nn

幻方萤火 | 并行训练中的快速保存与加载 hfai.checkpoint

幻方萤火深度学习套件 hfai 正式发布

在减少网络拥塞上,我们的一点实践(一)

haiscale | 幻方萤火高性能并行训练工具库


萤火跑模型

我们复现了16个关注度非常高的模型,在萤火 AI 训练平台上均进行了优化,利用集群强大的分布式训练提速特性,高效完成了训练任务。这里有你的研究领域吗?

萤火跑模型| Informer 上手实践

萤火跑模型| CLIP 模型

萤火跑模型 | Alphafold 蛋白质结构预测

萤火跑模型 | AAAI 2022 气象预测之时空图神经网络

模型高性能优化 | 两步数据预处理让Alphafold 提速一倍

模型高性能优化 | 如何实现一行代码 30% Alphafold 提速

萤火跑模型 | Autoformer 长时序预测

萤火跑模型 | 高精地图构建模型HDMapNet助力更精准的自动驾驶

萤火跑模型 | AI驱动的全球精准气象预报

萤火跑模型 | 可变形的 Attention 助力 ViT 优化

萤火跑模型 | CLIP-GEN无需文本训练即可文字生成图像

萤火跑模型 | 多卡并行助力 BEVFormer 三小时全精度训练

NeurIPS 2022 | 能量函数指导的图图翻译扩散模型

萤火跑模型 | 英伟达元宇宙创造营 GET3D

萤火跑模型 | 分布式训练大规模深度图神经网络

萤火跑模型 | 多卡并行实现 YOLOv5 高性能训练

萤火跑模型 | 高性能 Stable Diffusion 助力高质量 AI 绘图


有点意思的小工具

这是一个包罗万象的板块。随着用户的增多,萤火训练平台也收到了很多需求。有数据保密性的探索、训练调试插件的优化、适用 MM-* 框架的数据集接口、兼容PL的接口开发、颇受欢迎的自动调参工具。更丰富的小工具库,陈列出了更多的价值。

幻方AI年度总结:2022我们坚持了一件事情_第2张图片

PyTorch分布式训练方法

有点意思的小工具|JupyterLab TensorBoard Pro

数据模型可训不可见?hfai同态加密深度学习训练实践

幻方萤火 | 显存节省利器 CPUOffload

幻方萤火 | 一行代码,自动调参

如何在 MM-* 框架上无缝使用 ffrecord

hfai.pl | 兼具萤火集群优化特性的 PyTorch Lightning


hfai使用心法

幻方 AI 发布的深度学习套件 hfai,是快速高效使用萤火训练平台完成训练作业的基本功法 ,熟悉掌握了这套规则,就能够轻松地调用起平台的算力资源。为此,我们专门创建了 “hfai 使用心法” 系列专辑,陆续为大家介绍 hfai 一些功能的设计思路和原理,帮助大家更快上手 hfai,游刃有余得应对深度学习作业的各项挑战。

幻方AI年度总结:2022我们坚持了一件事情_第3张图片

hfai workspace│打通本地与萤火之间的任督二脉

hfai venv | 运行环境的影分身术

hfai python | 任务提交任意所至,萤火训练行云流水

hfai datasets | 运转数据入萤火训练的不二法门

hfai images | 自建镜像,环境配置的最后绝招

hfai 心法总章 | 快速上手攻略


更多技术分享请点击幻方AI技术blog:

https://www.high-flyer.cn/blog/

欢迎戳链接试用幻方萤火深度学习训练平台:

https://docs.qq.com/form/page/DR25zV1pEUHJYRFdG#/fill

你可能感兴趣的:(幻方AI萤火,幻方AI训练平台,幻方AI-入门,人工智能)