[深度学习笔记一] batch大小对训练的影响

  1. batch的选择,决定的是梯度下降的方向。
  2. 对小的数据集,可以采用Full Batch Size,这样可以更加准确地找出最佳的梯度方向。但是不同的权重的梯度值差距巨大,因此选择全局学习率困难。可以使用Rprop单独更新各权值
  3. 对大的数据集,全部载入数据,会被内存大小限制,Rprop会因为采样差异性,导致梯度互相抵消。
  4. 在合理范围内,增大batch,可以提高内存利用率,更快地跑完一次数据集,下降方向更准,减少震荡。
  5. 盲目增大batch,内存容量限制,学习的比较粗糙,精度会较低,增大到一定程度,下降的方向基本不变。
  6. batch太小,收敛较慢。虽然batch小的时候,随机性大一些,有时候会有更好的表现
  7. 如果增加了学习率,batch size最好随着增加,这样收敛更稳。
  8. 增大batch,等效于衰减学习率。较大的学习率有更好的泛化能力,呼应第5点。batch增大会降低精度
  9. 随着batch normalization的普及,一般采用较大的batch size,较小的batch size之后做 batchnorm会导致mean和variance偏移。

你可能感兴趣的:(机器学习,机器学习)