1.2.9&1.2.10 【Deep Learning翻译系列】Logistic Regression Gradient Descent 对数几率回归的梯度下降

我们按如下方式设置了对数几率回归,
z=wTx+b, z = w T x + b ,
a=y^=σ(z), a = y ^ = σ ( z ) ,
L(a,y)=(1y)log(1y^)ylog(y^). L ( a , y ) = − ( 1 − y ) log ⁡ ( 1 − y ^ ) − y log ⁡ ( y ^ ) .

在对数几率回归中,我们想要做的是修改参数w和b,以减少L。我们已经描述了在单个训练示例中实际计算损失的四个传播步骤,现在让我们谈谈如何反向计算导数。
1.2.9&1.2.10 【Deep Learning翻译系列】Logistic Regression Gradient Descent 对数几率回归的梯度下降_第1张图片
因为我们想做的是关于这种损失的计算导数,我们反向计算时要做的第一件事就是计算 La=ya+1y1a ∂ L ∂ a = y a + 1 − y 1 − a

然后 Lz=Laaz=a(1a)(ya+1y1a)=ay ∂ L ∂ z = ∂ L ∂ a ∂ a ∂ z = a ( 1 − a ) ( y a + 1 − y 1 − a ) = a − y

最后计算关于w和b的微分
Lw1=x1Lz, ∂ L ∂ w 1 = x 1 ∂ L ∂ z ,
Lw2=x2Lz, ∂ L ∂ w 2 = x 2 ∂ L ∂ z ,
Lb=Lz. ∂ L ∂ b = ∂ L ∂ z .

因此对数几率回归梯度下降计算的方向是:
w1:=w1αLw1, w 1 := w 1 − α ∂ L ∂ w 1 ,
w2:=w2αLw2, w 2 := w 2 − α ∂ L ∂ w 2 ,
b:=bαLb. b := b − α ∂ L ∂ b .

其中 α α 是学习率。

上面是只有一个训练样本时的对数几率回归的梯度下降方向,
现在我们想要为m个训练样本的对数几率回归进行梯度下降操作。
整体的成本函数 J=1mmi=1L(a(i),y(i)) J = 1 m ∑ i = 1 m L ( a ( i ) , y ( i ) ) ,
然后 Jwi=1mL(a(i),y(i))wi ∂ J ∂ w i = 1 m ∑ ∂ L ( a ( i ) , y ( i ) ) ∂ w i 。
α α 是学习率,然后梯度下降每次迭代的更新公式为:
w1:=w1αJw1, w 1 := w 1 − α ∂ J ∂ w 1 ,
w2:=w2αJw2, w 2 := w 2 − α ∂ J ∂ w 2 ,
b:=bαJb. b := b − α ∂ J ∂ b .

你可能感兴趣的:(深度学习课程之记录)