【机器学习】反向传播推导

梯度下降(Gradient Descent)

深度学习使用反向传播计算梯度。
【机器学习】反向传播推导_第1张图片

链式法则(Chain Rule)

链式法则通常有两种情形:

  1. Case 1:x对z的微分通过y拆成两项
    【机器学习】反向传播推导_第2张图片
  2. Case 2:s对z的的微分通过x和y拆成两项
    【机器学习】反向传播推导_第3张图片

反向传播(Backpropagation)

【机器学习】反向传播推导_第4张图片
反向传播过程中,我们要算每一个输出结点的损失,因此损失函数是每个输出结点关于标签的损失之和。
【机器学习】反向传播推导_第5张图片
反向传播梯度计算又可以分为两个部分:Forward passBackward pass
【机器学习】反向传播推导_第6张图片

Forward Pass

在Forward pass中我们的目标是计算权重w对z的微分,它就等于这个权重w前面的神经元(neuron)的输出。
【机器学习】反向传播推导_第7张图片
【机器学习】反向传播推导_第8张图片

Backward Pass

在Backward pass中,计算z对小写L的微分。通过将激活函数(图中激活函数是:Sigmoid函数。详见:常见激活函数及其导数)拆分出来而把z对L的微分拆成两部分:z对a的微分;a对L的微分。其中z对a的微分,z在forward pass中已经计算出了,因此z对a的微分是常量。
【机器学习】反向传播推导_第9张图片
【机器学习】反向传播推导_第10张图片
【机器学习】反向传播推导_第11张图片
【机器学习】反向传播推导_第12张图片
其中,z’ 对小写L的微分和z’'对小写L的微分可能有两种情形:一种是作为输出层;一种是不作为输出层。
【机器学习】反向传播推导_第13张图片
【机器学习】反向传播推导_第14张图片
整体计算思想是:从输出层往前一层一层计算,直到到达输入层。
【机器学习】反向传播推导_第15张图片
【机器学习】反向传播推导_第16张图片

总结

计算某个权重w,就是用正向传播的w前一个神经元的输出(w对w后面输出值z的偏微分)w后面输出值z对小写L(损失函数)的偏微分
偏置b的计算只是在forward pass中 b对z的微分等于1不同外,backward pass中与权值w的计算方法相同。
【机器学习】反向传播推导_第17张图片
参考资料 :台大李宏毅教授机器学习课程
图片来源:台大李宏毅教授机器学习课程PPT

你可能感兴趣的:(笔记,机器学习,TensorFlow,深度学习,人工智能,神经网络,机器学习,卷积神经网络)