保姆级LLM训练教程:阿里云平台使用accelerate,deepspeed多机多卡训练Chatglm2-6B
我看网上的教程,都基本上可能他们自己都能调通,但是,很多细节都没有给出,包括决定成败的因素:机器之间的免密连接。如果之前做过分布式集群搭建的,这肯定是难不倒他们的,但是对于一个普通的小白,如何从0到1去搭建多机多卡训练是个很大的难题,我也走了不少的坑,如果对大家有帮助请给一个小小的关注。第一步设备环境选择服务器首先,实验环境,我选择的是阿里云的两台服务器,选择ECS服务器。服务器的话,可以选择抢占