从乘法求导法则到BPTT算法

本文为手稿,旨在搞清楚为什么BPTT算法会多路反向求导,而不是一个感性的认识。 假设我们要对E3求导(上图中的L3),那么则有: 所以S2是W的函数,也就是说,我们不能说: 因为WS2 = WS2(w),S2里面包含了W这个变量,S2是W的函数,也许有人会说:“S2里面的W是常数吧”,那么请想一想S

你可能感兴趣的:(从乘法求导法则到BPTT算法)