E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
DLRover
DLRover
:蚂蚁开源大规模智能分布式训练系统
文|沙剑蚂蚁集团高级技术专家专注分布式深度学习领域主要负责蚂蚁大规模分布式训练引擎的设计和开发本文4491字阅读12分钟本文整体介绍了
DLRover
的项目动机与核心能力,未来我们会发布一系列文章,来从同步
·
2024-02-19 23:04
开源人工智能
千卡训练有效时间占比超过95%,蚂蚁集团AI Infra技术开源
(图:蚂蚁集团的自动化分布式深度学习系统
DLRover
现已全面开源)该技术框架名为
DLRover
,目标在于大规模分布式训练的智能化。
光锥智能
·
2024-02-02 07:09
人工智能
开源
DLRover
:蚂蚁开源大规模智能分布式训练系统
文|沙剑蚂蚁集团高级技术专家专注分布式深度学习领域主要负责蚂蚁大规模分布式训练引擎的设计和开发本文4491字阅读12分钟本文整体介绍了
DLRover
的项目动机与核心能力,未来我们会发布一系列文章,来从同步
SOFAStack
·
2023-10-06 17:00
开源
分布式
人工智能
DLRover
在 K8s 上千卡级大模型训练稳定性保障的技术实践
文|王勤龙(花名:长凡)蚂蚁集团AI系统工程师文|张吉(花名:理之)蚂蚁集团AI系统工程师文|兰霆峰四川大学20级计算机系专注分布式深度学习领域,主要参与蚂蚁大规模分布式训练引擎的设计和开发本文5104字阅读13分钟01背景.如今大语言模型(LLM)的分布式训练节点规模越来越大,训练耗时长。比如OpenAI在1024个NVIDIAA100GPU上训练GPT-3大约需要34天。训练节点越多,耗时越长
SOFAStack
·
2023-10-06 17:00
kubernetes
容器
云原生
DLRover
- 小记
文章目录关于
DLRover
关于DLRovergithub:https://github.com/intelligent-machine-learning/dlroverDLOver使大型人工智能模型的分布式训练变得简单
伊织code
·
2023-10-06 17:28
其他
DLRover
DLRover
: 云上自动扩缩容 DeepRec 分布式训练作业
文|王勤龙(花名:长凡)蚂蚁集团技术专家文|韩旭东(花名:玄钛)蚂蚁集团高级开发工程师专注于分布式深度学习领域,主要负责蚂蚁大规模分布式训练引擎的设计和开发。本文3988字阅读10分钟01背景如今,深度学习已广泛应用在搜索、广告、推荐等业务中,这类业务场景普遍有两个特点:1)训练样本量大,需要分布式训练提升训练速度;2)模型稀疏,即模型结构中离散特征计算逻辑占比较高。DeepRec是阿里云机器学习
·
2023-04-18 22:43
前端ai开发程序员互联网
上一页
1
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他