Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour 笔记
作者使用了batch大小:8192,使用了256GPUs,在一个小时内训练了ResNet-50,并且得到了和256大小的batch同样的训练精度。2LargeMinibatchSGD通常来说,我们在训练有监督任务的时候,会最小化loss:是网络的参数,是训练集,就是损失函数。minibatchSGD就是在一个batch的训练集上,进行参数的更新:2.1LearningRatesforLargeMi