Megatron-LM源码系列(六):Distributed-Optimizer分布式优化器实现Part1
1.使用说明在megatron中指定--use-distributed-optimizer就能开启分布式优化器,参数定义在megatron/arguments.py中。分布式优化器的思路是将训练中的优化器状态均匀地分布到不同数据并行的rank结点上,相当于开启ZERO-1的训练。group.add_argument('--use-distributed-optimizer',action='sto