论文阅读:Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour
论文首先提出了神经网络训练的一个不好的现象:batchsize的增大到一定程度,ResNet的分类准确率会下降。这个现象推翻了我以前的一个直觉:觉得batchsize大,训练的效果会更好。为了加快训练的速度(增大batchsize)同时保证准确率,论文提出了一个trick:让学习率lr随着batchsize线性增大(LinearScalingRule),使得训练时的batchsize在[64(2^