2019-10-25 第二课 方差正则化dropout归一化梯度

方差

variance和bias
减少bias和variance的方法

这里有一个trade off。因为bias和variance也在相互影响。

正则化:有助于减少过拟合。

L1正则化使模型变得稀疏。(w中有很多0)

正则化参数lamda通过验证集来确定。

L2正则化也被称为“权重衰减”

注意在神经网络后向传播中dw的更新

正则化参数变大--->w变小(因为cost founction 变大了)。当z变小时,激活函数在0附近接近线性(以tanh为例)。故每一层神经网络接近线性。从而防止发生过拟合。

dropout:通过概率随机删除一些节点

inverted dropout:在保证减少节点的同时,保持a的期望不变

归一化:将x1和x2的方差都变为1.期望变为0:(可以更快速的训练模型)

梯度消失与爆炸:网络中,激活函数以指数增加或减少

你可能感兴趣的:(2019-10-25 第二课 方差正则化dropout归一化梯度)