深度神经网络:WX+b vs XW+b

作者:chen_h
微信号 & QQ:862251340
微信公众号:coderpai
简书地址:https://www.jianshu.com/p/856a5b424d6b


在大多数的神经网络教科书中,神经网络一般都会使用 y = WX+B 或者 y = XW+B 的形式。但是在 tensorflow 或者 theano 中,神经网络的实现都是采用了 y = XW+B 的形式。这是为什么呢?我花了很多的时间去查找资料,最后发现一点,可能是 y = XW+B 计算导数比 y = WX+B 容易。

从理论上讲,XW+B 和 WX+B 在神经网络中是等价的(其实就是一个矩阵的转置)。然而,当我们计算两者的导数的时候却差别很大。我们通过具体的数学推导来感受一下吧。

比如:y = XW

深度神经网络:WX+b vs XW+b_第1张图片

比如:y = WX

深度神经网络:WX+b vs XW+b_第2张图片


原文

matrix cookbook


作者:chen_h
微信号 & QQ:862251340
简书地址:https://www.jianshu.com/p/856a5b424d6b

CoderPai 是一个专注于算法实战的平台,从基础的算法到人工智能算法都有设计。如果你对算法实战感兴趣,请快快关注我们吧。加入AI实战微信群,AI实战QQ群,ACM算法微信群,ACM算法QQ群。长按或者扫描如下二维码,关注 “CoderPai” 微信号(coderpai)

深度神经网络:WX+b vs XW+b_第3张图片


深度神经网络:WX+b vs XW+b_第4张图片

你可能感兴趣的:(人工智能)