Deep RNN论文理解

有效堆叠RNN

两个亮点设计:

1、RBM(时间方向和空间表征方向),分离信息,平衡两个方向(时空),有效的同时获取时空特征信息

2、Overlap Coherence Training Scheme(降低训练复杂性)

 

想做的事:构建深度RNN,互适应得到两个flow优点

结合RNN和DNN的优点。

 

更深的RNN,直接堆叠多个RNN层会有两个问题:

1、在结构上:表征流和时间流(空间上和时间上)互相缠绕混乱。使得模型不能够进行互适应。造成训练错误和训练消耗。

(LSTM和GRU的设计主要关注于时间序列信息)

2、计算资源的限制(内存和计算复杂性),影响流畅性。(Deep RNN需要随着序列的长度展开)

 

RBM

设计两个计算单元,分别负责表征流和时间流。使两个流相互独立,并隔离的关注表征流和时间流,使网络容易训练。

之后使用一个结合单元来同步两个流。通过调整同步方法,可以平衡每个流的主宰程度来适应不同的任务。

TD:为了在刚开始训练的时候,表征流较少的被时间流所影响,设计TD来按一定的概率阻断时间流的反向传播。

 

Overlap Coherence Training Scheme

目标:降低训练的消耗(大量的训练消耗主要来自长的序列)

Training scheme:随机采样。一些重复的短的裁剪。长度n,利用重叠部分作为相邻段之间的交流桥,使得信息反向传播在各个clip上变得光滑流畅。

overlap coherence loss:使分离的clip产生一致的结果,增强时间流信息的一致性。

视觉序列任务:要求模型同时提取表征和时间信息

 

相关研究:1)只关注了空间表征特征 2)3D消耗资源 3)RNN太浅,限制了它的能力。

 

探索Deep RNN:之前的一些增加深度的方式,得到的是时空特征,而不是清晰的时间特征和深度的空间特征。

 

RBM保证在深度增加的时候,训练依然有效。

设计不浅的循环结构分别从时序输入捕获时间信息,从个体(序列中单个frame)中捕获表征信息,这两个流分别隔离的朝向时间深度和结构深度。(时间流、表征流)

直接垂直堆叠不行

我们的向往:怎么去尽可能独立的获取两个分支的信息流。(这样的话可以更容易训练,因为共享负荷,简单化了互适应)

表征流:CNN  

R:可以看作 “时序信息上的表征桥”,表征信息主要通过这个桥来反向传播,它不需要卷入时序信息。

时间流:RNN(不使用LSTM的原因是:资源消耗差别)

初期TD rate设置较大,丢弃时间信息,缩短了时序长度,表征信息容易有效的获取,仅仅表征信息单元R可以反向传播。

在训练阶段,随着TD rate逐渐减小,合并两个流,两个流的工作量在一定程度上可以在不同的时间上解耦。

 

效果好的原因:深度增加,空间表征能力增强。

你可能感兴趣的:(深度学习)