DLRover - 小记

DLRover - 小记_第1张图片


文章目录

    • 关于 DLRover


关于 DLRover

  • github : https://github.com/intelligent-machine-learning/dlrover

DLOver使大型人工智能模型的分布式训练变得简单、稳定、快速和绿色。
它可以在分布式集群上自动训练深度学习模型。
它帮助模型开发人员专注于模型结构,而不需要考虑任何工程方面的东西,比如硬件加速、分布式运行等。
现在,它为K8s/Ray上的深度学习培训工作提供自动化操作和维护。主要功能如下:

  • 容错(Fault-Tolerance),单节点故障切换,无需重新启动整个作业。
  • 自动缩放(Auto-Scaling),在节点级别和CPU/内存级别自动放大/缩小资源。
  • 动态数据分片(Dynamic data sharding),动态调度训练数据到每个工人,而不是平均分配,更快的工人更多的数据。
  • 自动资源优化(Automatic Resource Optimization),自动优化工作资源,提高培训绩效和资源利用率。

相关文章

  • DLRover:蚂蚁开源大规模智能分布式训练系统
    https://blog.csdn.net/SOFAStack/article/details/129394779
  • DLRover 在 K8s 上千卡级大模型训练稳定性保障的技术实践
    https://blog.csdn.net/SOFAStack/article/details/132843619

2023-10-06

你可能感兴趣的:(其他,DLRover)