softmax 层的梯度反向传播推导

今天在实现 BP 算法时,发现从 softmax 层进行损失梯度回传时,只需将输出概率减1 或保持不变即可:

softmax 层的梯度反向传播推导_第1张图片

为更好地理解代码以及softmax层的优点,本文拟对softmax层反向传播的求导过程进行推演。

设网络结构和softmax层的输出如下:


softmax 层的梯度反向传播推导_第2张图片

softmax 层的梯度反向传播推导_第3张图片

所以采用softmax层的优点可以总结为:

  • 网络输出得到了归一化,并且有了概率的含义
  • 取对数后引入了交叉熵损失函数,在一些场合交叉熵损失函数更容易优化
  • softmax 和交叉熵的结合,使损失梯度在网络最后一层的回传变得十分简洁。
softmax 层的梯度反向传播推导_第4张图片

参考资料

softmax层反向传播求导过程

你可能感兴趣的:(softmax 层的梯度反向传播推导)