训练神经网络Loss先降后升?

出现这种现象可能是最开始设置的学习率可能过大,可以试用warm up的方式。

warm up即step小于warm up step时,学习率等于基础学习率×(当前step/warmup_step),由于后者是一个小于1的数值,因此在整个warm up的过程中,学习率是一个递增的过程, 当warm up结束后,学习率开始递减。

参考引用

你可能感兴趣的:(训练神经网络Loss先降后升?)