深度学习中的batchsize对学习效果有何影响?

  • 大的batchsize减少训练时间,提高稳定性
  • 大的batchsize导致模型泛化能力下降。研究[6]表明大的batchsize收敛到sharp minimum,而小的batchsize收敛到flat minimum,后者具有更好的泛化能力。Hoffer[7]等人的研究表明,大的batchsize性能下降是因为训练时间不够长,本质上并不少batchsize的问题,在同样的epochs下的参数更新变少了,因此需要更长的迭代次数。

你可能感兴趣的:(深度学习,人工智能)