论文笔记:Grid Long Short-Term Memory

Grid Long Short-Term Memory


本文主要引进了Grid LSTM,利用LSTM单元生成一个多维的网格,可以应用于向量,序列或者是更高维的数据例如图像。
本文是google deepmind发表
It therefore provides a unified way of using LSTM for both deep and sequential computation
本文主要想把RNN做深,不仅仅是序列的,而且还是深层网络 ,从维度上下手。主要就是利用LSTM隐层单元,构建一个网络结构。

这篇文章先讲了LSTM原理,又讲了stacked LSTM,然后是multidimensional LSTM,最后引出grid LSTM。
Grid LSTM可以在网络的任何维度扩展深度。在本文即将提到的序列预测问题中,我们设置了2维的网络,一个是序列本身,还有沿深度方向的另一维度。这些单元内部的值不能像multi LSTM一样简单的组合,我们待会会探讨一下他们究竟是如何把参数combine到一起的。

主要结构:
论文笔记:Grid Long Short-Term Memory_第1张图片
论文笔记:Grid Long Short-Term Memory_第2张图片
论文笔记:Grid Long Short-Term Memory_第3张图片
Grid LSTM跟multi LSTM一样,一个N维的block会接受N个隐层向量和N个记忆向量作为输入;不一样的是,block输出的N个隐层向量和记忆向量是明确的。
计算方法如下:
论文笔记:Grid Long Short-Term Memory_第4张图片
如果有一维度的向量对于评估整个模型有用,那么就留下这个向量,只计算其他维度的输出,然后combine成一个向量。
有的维度不需要进行LSTM训练,经过激活函数。这些节点仅仅象征性的连接网络,并无实际性作用。

从多个边同时输入。N个边有输入向量,和输出向量。网格的每个边都有输入或者输入跟它相连。这个机制确保不同边的隐层向量和记忆向量能够紧密相连并不需要混合起来。在神经翻译模型中,我们把输入words跟输出的words分别从grid的不同side输入。

权重共享
能够消除某些不变形,在翻译或者图像模型中,如果grid的多个side需要共享权重,我们可以引进grid一个新的维度来实现,而不用共享权重。

实验

本文首先在3个算法任务上进行了实验,然后对3个实际性任务进行的实验,包括:字符预测,翻译和数字图像分类(这个可以自己实现一下)。

你可能感兴趣的:(论文笔记:Grid Long Short-Term Memory)