使用循环神经网络识别minist数据

RNN 循环神经网络的基本知识

其实循环神经网络我对了好久都没有读懂，之前还研究过源代码，但是到后来没有多久又忘记了。今天在我已经非常熟悉CNN的情况下，我想再仔细研究一下RNN。

RNN网络创建的目的

CNN算法是为了提取一个二维图像里的特征，形成一个特征图，送到下一级，由下一级多判断使用。
我想RNN也是普通的神经元，他的目的也是为了识别特征，并且把识别出来的特征传输到下一级，供下一级做判断。所以我们还是按照这个思虑来判断吧。

为了借鉴CNN的信息，我们先看看和RNN网络等价的网络

看到这里的X0,X1,X2...Xn了吗，其实和CNN 算法的输入是一样的，只不过CNN的输入是按照二维来看待的，而RNN里输入的数据是一位的。说到一维的我又想起来了全连接层，

在Layer L2中，共四个神经元，每个神经元同样也是接受X1...Xn个输入吗？
所以在RNN中的一个Cell和普通的神经元是一个意思，都是接收n个数据的输入，然后在内部与权重相乘求和之后，输出给下一个层级的神经元而已。

所以这里我开始划重点了，在深度学习里，非常要看重的两个概念是：
1、特征向量，就是一个实例的描述，比如一幅图像(h,w)是一个实例，一句话也是一个实例，一个单词也是一个实例，也叫作输入信号。
2、神经元，是基本的触发单元，所谓的神经元，就是你给他几个输入，和他胃口，他就给你触发一个信号。当然神经元是可以串联的，串联起来的神经元称为神经网络。

那么我们看图一的神经元和图二的神经元，最大的不同是图二是把一个实例的所有特征输入给了一个神经元，然后神经元把触发信号连接到下一个级。图二里的神经元，其实是一个神经元，输入的X0到Xn其实是串型进入，而他的激励信号刚好h0到hn也是串型输出的。就是说给一个X0，他就有个h0输出，再给个X1，他又有个h1输出。而且神经元的权重参数也是同一个。你看到的那种向右的箭头，并不是输出。

如果按照这个道理来说，那么RNN和普通的单输入神经元不就一样了，当然不可能一样，最大的不同是什么？就是在RNN里，一个神经元内部可以保持状态的。他的输入和激励就像是有一块铁皮接收别人的捶打，每次只能锤一拳头，但是重复锤这个地方，影响也就能显现出来了。就是说每次输入一个X0，除了根据权重W进行输出之外，他还把当前的状态保存在内部，下个输入会对这个状态会有影响。

而且每次来一个输入会和输出一起触发神经元，一起激发神经元的输出。

因此RNN称作循环神经网络，这个循环的意思就是他内部的状态是递归的，也就是前面的输入影响到了输出和内部状态，也就影响到了后边的输出，也就是前面的输出影响到了后边的输出。因此把循环神经元改个更加形象的名字就是：串型输入、递归影响的神经元。

现在终于对循环神经元有了基本理解了，首先是神经元，他也可以接受X0到Xn个特征输入，并且最终会有一个输出hn，中间还有其它的输出h0到hn-1,但是我们不关心，我们只需要知道有X0个输入，有最终的一个输出hn，当然也可以跟触发信号了。而且我们知道输入X0和输入Xn是有顺序的，他们输入的不同输出的也不同。

这个很好理解，说：“我看到一只狗”和“狗看到一个我”表示起来意思不一样的。“我有10块钱”和“10块钱有我”也是不一样的。

当然在具体实现的时候输入的维度并不能无限加深，我们总是在定义神经元的时候就是确定了最大维度。下面我们开始进行真正的实践。

实现神经网络

lstm_cell = tf.contrib.rnn.BasicLSTMCell(n_hidden_units, forget_bias=1.0, state_is_tuple=True)
这就定义了一个神经元，n_hidden_units代表LSTM Cell个神经元个数，其实输入一个单词的维度，
outputs, final_state = tf.nn.dynamic_rnn(lstm_cell, X_in, time_major=False)
一篇文章的单词的长度代表的是时序。当time_major=False时，输入数据x_in就是一篇文章，他的格式是(batch_size, time_steps, inputs_size)。

如果是在用在一幅图像上，比如mnist的图像(28,28)，应该怎么输入到这个网络里呢？LSTMCell的大小应该是28，就是代表一个输入数据的维度。dynamic_rnn的x_in输入应该是(batch_size, 28行, 28维)。

使用循环神经网络识别minist数据

RNN 循环神经网络的基本知识

RNN网络创建的目的

实现神经网络

你可能感兴趣的:(使用循环神经网络识别minist数据)