神经网络BP算法及其Caffe实现

大名鼎鼎的BackPropagation算法，是如今神经网络/深度学习的基础优化算法。
其实在1974年Paul Werbos就提出了利用backprop优化求解神经网络的可能性，真正火起来是1986年Rumelhart和Hinton一起重新发现,通过backpropgation算法可以有效地优化求解神经网络。
随着神经网络的今年飞速发展，如今的深度学习，背后的优化策略就是基于这套简单有效的BP算法。

关于BP算法的直观解释和理解，可以参考下面的回答：
如何直观地解释 back propagation 算法？-胡逸夫的回答
感谢作者非常直观、详细地解释了BP算法的原理，并给出了直观的理解方式。

但是我在浏览大量对于BP算法的解释，都基本止步于此。
对于BP算法的解释，其实已经很到位了，但是具体到神经网络中的参数优化，个人感觉作者还没讲完，因此很多人可能会对各层参数的优化存在疑问。

BP算法链式求导

如上图所示，我们假设输入是a,b, 输出是e，h(x),g(x),z(x)可以看做是中间的hidden layer。
那么可以得到: e = z(h(a,b),g(b))
通过作者推导的自顶而下的反向传播，我们可以根据链式求导法则，将求导的过程分割开来。
但是要注意的是，上图中并没有任何可学习的参数。
在神经网络中，我们要学习的是各层的参数，要更新的其实是各层的参数，而神经网络的输入(这里可以看做是a,b)其实是固定的。
所以我们实际要调整的是各层的参数(weights,bias等)，而这样的过程并没有在上图中反应出来。

我们考虑各层有参数的情况，如下图所示。

各层存在参数w1,w2,w3,w4的情况

这样的情况才是我们神经网络bp中经常遇到的，此时我们需要bp更新的是其中的参数w1,w2,w3,w4，而不是a,b.
此时我们考虑其中某一层的参数更新，如下图所示：

某一层参数更新的分析

在这一层中，我们实际要更新的参数是w3,
我们的bottom输入是b,top输出是d,
我们要得到的是整个网络loss function关于w3的偏导，然后根据w3=w3-lr x gradient对w3进行更新。
根据链式法则，我们发现其实top中我们已得到loss function关于top blob的偏导。那么此时只要计算top blob关于要学习的参数的偏导，就可以根据链式运算得loss function关于要学习的参数的偏导，就可以进行参数更新了。
在上图中，我们的top blob是d,要学习的参数是w3. d与w3的关系是d=w3 x b+1
可以得到d关于w3的偏导是b，而b的取值我们根据前向传播已知为1。
所以loss关于w3的偏导为3*1=3，这样我们就可以根据bp进行w3的更新了。

同时我们计算该层function关于bottom的偏导，继续回传，该层的bottom就可以作为前一层的top,这样就实现了神经网络中对各层参数的更新。

后续将简单介绍以下Caffe中backwar部分的实现，未完待续。。
话说不支持数学公式真是反人类啊。。。

神经网络BP算法及其Caffe实现

你可能感兴趣的:(神经网络BP算法及其Caffe实现)