无标题文章

神经元越多,表达模型越好
为了防止过拟合,增大regularzation

relu max(0, x)
leaky relu
maxout max(w1Tx+b1, w2Tx+b2)
ELU

无标题文章_第1张图片
image.png

vanish gradient problem

learning rate过大 会导致很多neuron挂掉
dead neuron-> leaky relu

relu 权值初始化
/2是因为假设高斯分布,max


image.png

batch normalization的好处 可以适应各种不同初始状态下的权值,在某个学习率下收敛更快

log(1/10) = 2.3 10 classes(sanity check, gradient check)

image.png
image.png

你可能感兴趣的:(无标题文章)