Cassini_Network-Aware Job Schedulingin Machine Learning Clusters
这篇论文介绍了CASSINI,一种用于机器学习(ML)集群的网络感知作业调度器。研究背景背景介绍:这篇文章的研究背景是深度学习数据集和模型规模的不断增长,对高效GPU集群的需求日益增加。分布式机器学习训练工作负载的通信开销占据了训练迭代时间的很大一部分,而现有的ML调度器往往忽略了ML训练作业的通信模式。研究问题:该问题的研究目标是开发一种简单而有效的方法,能够在网络链路中高效地放置多个ML作业,