2018-02-10

记录一下对RNN,LSTM,GRU基本原理(正向过程以及简单的反向过程)的个人理解-------------------#RNNRecurrent Neural Networks,循环神经网络(注意区别于recursive neural network,递归神经网络)####RNN结构单元结构![rnn单元结构](http://img.blog.csdn.net/20180210022245599?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcXFfMzgyMTAxODU=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)####数学描述回忆一下单隐含层的前馈神经网络输入为$\mathbf{X}\in\mathbb{R}^{n\timesx}$(n个维度为x的向量)隐含层输出为$$\mathbf{H}=\phi(\mathbf{X}\mathbf{W}_{xh}+\mathbf{b}_h)$$输出层输入$\mathbf{H}\in\mathbb{R}^{n\timesh}$输出为$$\hat{\mathbf{Y}}=\text{softmax}(\mathbf{H}\mathbf{W}_{hy}+\mathbf{b}_y)$$现在对$\mathbf{X}$、$\mathbf{H}$、$\mathbf{Y}$都加上时序下标同时引入一个新权重$\mathbf{W}_{hh}\in\mathbb{R}^{h\timesh}$得到RNN表达式$$\mathbf{H}_t =\phi(\mathbf{X}_t\mathbf{W}_{xh}+\mathbf{H}_{t-1}\mathbf{W}_{hh}+\mathbf{b}_h)$$ $$\hat{\mathbf{Y}}_t =\text{softmax}(\mathbf{H}_t\mathbf{W}_{hy}+\mathbf{b}_y)$$$\mathbf{H}_0$通常置零####通过时间反向传播和随之带来的问题输入为$\mathbf{x}_t\in\mathbb{R}^x$不考虑偏置隐含层为$$\mathbf{h}_t =\phi(\mathbf{W}_{hx}\mathbf{x}_t+\mathbf{W}_{hh}\mathbf{h}_{t-1})$$则损失函数为$$L =\frac{1}{T}\sum_{t=1}^T\ell(\mathbf{o}_t, y_t)$$$$$$![这里写图片描述](http://img.blog.csdn.net/20180210033554960?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcXFfMzgyMTAxODU=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$

你可能感兴趣的:(2018-02-10)