Deep Leaning 学习笔记之改善神经网络的超参数(3.2)—— 批量初始化Batch norm及Softmaxr

1 批量初始化

1.1 定义

除了对X能够进行均值归一,对各个隐藏层也可以初始化,即对Z统一初始化

1.2 方法

下图中的 γ γ γ μ μ μ,是两个超参数,可以控制均值和方差的界限
(一般来说都是均值为0,方差为1,但是不一定,因此可以通过这两个超参数进行控制)
还有种情况就是,当 γ = σ 2 + ε , β = μ γ=\sqrt{σ^2+\varepsilon},β=μ γ=σ2+ε β=μ的时候,我们可以认为
均值为0,方差为1,没有进行缩放控制
也就是
在这里插入图片描述
Deep Leaning 学习笔记之改善神经网络的超参数(3.2)—— 批量初始化Batch norm及Softmaxr_第1张图片
Deep Leaning 学习笔记之改善神经网络的超参数(3.2)—— 批量初始化Batch norm及Softmaxr_第2张图片

2 Softmax

2.1 定义

计算action的时候,不使用sigmoid等激活函数,而是用如下图的公式代替
t = e z [ l ] t = e^{z^{[l]}} t=ez[l]
a [ L ] = g [ L ] ( z [ L ] ) = t ∑ t L a^{[L]} = g^{[L]}(z^{[L]}) = \frac{t}{∑t^{L}} a[L]=g[L](z[L])=tLt
Deep Leaning 学习笔记之改善神经网络的超参数(3.2)—— 批量初始化Batch norm及Softmaxr_第3张图片

2.2 Softmax中的梯度计算(反向传播)

通常来说框架会帮你计算梯度Gradient Descent
但是如果需要自己计算梯度,记住下面的公式,
d z [ L ] = y h a t − y dz^{[L]}=y_{hat}-y dz[L]=yhaty
然后从此开始计算反向传播
Deep Leaning 学习笔记之改善神经网络的超参数(3.2)—— 批量初始化Batch norm及Softmaxr_第4张图片

你可能感兴趣的:(DeepLearning)