炼丹心得

1、训练时,一个batch的数据,按照一定比例从不同的样本集选取样本

2、开始训练,选择一个学习率0.0001、step,观察是否收敛,如不收敛,调低学习率

3、propagate_down: false 不会反向传播,但是早些层会更新参数,因此需要设置:param { lr_mult: 0 } 参数将不进行更新

4、在loss 函数中写的sigmoid 激活函数,那么反向传播也需乘以sigmoid的导数

你可能感兴趣的:(炼丹心得)