首先声明,虽是原创文章,但是站在了巨人的肩膀上进行创作的,借鉴了车哥AI蜗牛车的一些总结,加上了自己的补充和整理完成。
今天分享的这篇文章是发表在ICML2018年的paper,是基于上一篇PredRNN(用ST-LSTM预测学习的循环神经网络)的又一次改进,上次在最后的时候说过,PredRNN结构效果挺好,但是也存在问题,就是梯度消失,尤其是那个之字形流动的那个,层数一多,时间一长,就容易梯度消失,不擅长捕捉深层次网络的长期特征。所以今天的PredRNN++是PredRNN的加强版(看名字也能看出来吧,是不是直接想到了C与C++ ),这种结构不仅获得了更强的空间相关性和短期动态的建模能力,而且还有效的解决了梯度消失的问题,非常强大。
亮点如下:
论文下载地址:http://proceedings.mlr.press/v80/wang18b/wang18b.pdf
这篇论文我自己读了两遍,然后又结合车哥写的总结理解了一下,车哥对于这篇文章已经总结的非常详细,尤其是结构的细节部分,非常细致了,所以有想搞时空序列的小伙伴,建议关注一波车哥的(公众号AI蜗牛车和知乎),车哥作为时空序列预测学习的大牛,会帮助我们在这条路上走的平坦些。
这篇文章的细节部分我依然会借鉴车哥的一些总结,毕竟他经验多年,细节扣得很详细了,比如网络的细节部分(这当然得学用车哥的总结了)。 但是我也会对我做的笔记进行整理总结,毕竟我不可能和车哥关注的点完全一样,有些基础知识可能对于车哥来说很简单一笔带过,但是作为小白的我还得补充一些我需要学习的知识,比如论文里面用到了Casual LSTM,也就是在PredRNN的基础上进行了M和C两种记忆的级联操作,这种级联为啥就好了? 为啥级联起来就能更好的捕捉突发变化和对短期有利了? 还有级联操作中CM和MC的颠倒怎么就能引来后者效果变弱了呢?还有GHU我自己的某些理解,还有KTH实验里面的评估指标PSNR和SSIM这些都代表了什么? 这些东西我都得需要整理下来,因为我还需要进一步学习,我还得把文章总体脉络总结一下,这样我回头再看这篇文章的时候才知道每一块讲了啥。 总之我现在是站在巨人的肩膀上,继续朝我的方向前进,哈哈,感谢车哥。
分享大纲如下:
摘要部分仍然是我上面提到的亮点,只不过没有说原理,只是说为了追求短期视频动态的强大建模能力,提出了一种新的循环结构,称为因果LSTM和级联双记忆,使我网络在时间上更深入。 然后就是为了减缓梯度消失的问题,提出了Gradient HighWay Unit,为从输出流返回到远程先前输入的梯度流提供可选的快速路径。 两者无缝结合,可以自适应的捕捉短期和长期记忆,证明了网络的powerful。
相比较于PredRNN的结构,原来的ST-LSTM改成了Casual LSTM, 然后在某一层与层之间架起了一道桥梁。
首先,作者提出为了准确的预测学习,需要对不同时间尺度下的视频动态进行有效的建模。考虑了两种典型情况:
所以作者说应自适应地考虑视频的短期和长期关系
然后作者分析了一下目前网络存在的问题
即CNN只要集中空间信息,不考虑时间维度,RNN考虑时间维度,但存在梯度消失,这两种单独的不大行。
循环单元ConvLSTM的设计目的是通过门控结构适当地保留和忘记过去的信息,然后将其与当前的空间表示形式融合。然而,作者说堆叠的ConvLSTMs并没有为逐步重复的状态转换增加额外的建模功能,因为只是普通的每层之间连接起来,没有增加额外的深度
Deep Transition ConvLSTMs
增加ConvLSTMs的逐步过渡深度可以显著提高其对短期动力学的建模能力,因为之字形的这个相当于网络传播时深度加深了好多,But, 梯度消失啊
PredRNN with ST-LSTMS
为了追求长期cohence和短期的这种循环深度,这个结构加入了ST-LSTM,但是作者说这个并行的时空记忆单元的连接不是一种循环深度增加的有效方式,之前没有懂这句话啥意思,但看了后面级联的结构和改进的地方,貌似明白点了,后面再提到。
然后就是说仍然存在梯度消失的问题,毕竟之字形的那个在那摆着呢。
所以,总而言之,言而总之,就是ConvLSTM也好,PredRNN也好,没有解决的两个大问题: 递归深度问题和梯度消失问题
那么主角登场了。
作者在这里开门见山,直接就提出了是如何解决上面的两个问题的:
简单来说:
下面分别介绍:
下面这句话我觉得挺重要的,我感觉是为啥要级联起来的依据:
翻译一下就是:在周期性的过渡中增加更多的非线性层,可以增加网络从一种状态到另一种状态的深度。
好,我们看一下级联LSTM的结构:
在这里,车哥又解说了一下子LSTM的工作过程,不懂的可以先去补一补, 不过车哥总结关于上面这个图的六点挺好的,如果我总结,肯定总结不这么全乎,所以这里借鉴一下子:
加一个ST-LSTM结构作为对比:
我把重点放在了公式之上,哈哈,对比一下ST-LSTM(上)和Casual-LSTM(下)的公式:
看出不同了吗?其他的不想说,只想说这里把原来的sigmoid换成了tanh,并且M的那个也加了一个tanh,这样就增加了非线性,并且看到了级联了吗? 是不是相当于层次没加的基础上额外增加了深度? 记不记的前面PredRNN那个地方,作者说这个并行的时空记忆单元的连接不是一种循环深度增加的有效方式来,我觉得原因出在了这里。
正是通过这个Casual-LSTM单元,作者说
这句话我觉得原因是因为层次不变的情况下,更多的非线性单元会起到特征增强的效果,所以每个像素在每一步中的特征会放大一下,所以有利于捕捉短期的特征和突发变化。当然这是我自己的理解了。
当然,这里的级联CM也可以颠倒一下,换成MC的级联。 后面实验中也这样做了,但是效果比前面那个稍微差一些,我这里也说一下我觉得的原因,只是感觉不一定对
简单分析一下,这两者的区别无非就是CM的话,M在后面,计算的时候空间中会加入时间记忆,MC的话,C在后面计算的时候时间中加入空间记忆,同样时空混合,为何前者好呢? 我觉得M里面加入了C之后,虽然是时空记忆混合,但是M走之字形啊,可跨层,这样层与层之间有了联系。 C里面加入了M之后,时空记忆混合,但是C只是水平传播啊,不能跨层的。
这是我觉得。
作者说,上面的级联结构虽然很好,但是容易遭受梯度消失的困境,尤其是周期性运动或者频繁遮挡的时候,所以需要一种高速公路的方式学习跳帧。翻译起来反而怪怪的,还是看原文吧
理论证据表明,highway layers能够在非常深的前馈网络中有效地传递梯度,所以作者将这一思想应用到递归网络中,以防止长期梯度的快速消失,并提出了一种新的时空递归结构GHU,结构如下:
这个St就相当于一道门,车哥说相对于两个输入类似于GRU里面的update gate的操作,这么一看,还真像,下面是更新公式:
这个东西有大作用的,但是怎么用呢? 要放到哪里呢? 那么我们就来看看PredRNN++最终的架构:
和PredRNN相比,ST-LSTM换成了Casual-LSTM,然后再第一层和第二层之间架起了一道高速公路来连接过去和未来,我喜欢描述成穿越时光的路线。这个高速公路能够保证我未来某个时刻想要回忆过去很长一段时间某个时刻的特征,我可以直接通过这个公路进行传递过去(操作也很简单,就像我上面画的,直接把Z0的沿着蓝色的线传递到Z2,只需要途中的GHU里面St关闭就可以,相当于走了很大的一段近路),这样就能迅速的回忆起过去某时刻的上下文,并且反向传播的时候也简单了啊,不用像之前那样之字形前进更新的那种了。就能减缓梯度消失的问题。
所以最后的PredRNN++的方程如下:
这样应该说明白了吧,如果不太明白,可以结合着车哥写的看看了。
最后一个细节,就是这条高速公路放到第几层好呢?
作者在不同的层次之间做了尝试,最后发现还是1-2层这里好,原因是因为越到高层,特征就越抽象,而想从未来回忆过去的上下文,特征越细节越好。
后期车哥会有代码的讲解,这是我期待的东西,对于复现,我目前能力太差,先跟着车哥学习,公众号【AI 蜗牛车】,理论到处有,实践最重要
对于数据集本身,三篇论文都用的这个数据集,之前省略了,这里详细说一说,因为这个实验有很多可挖的地方:
首先根据之前的10个帧来预测10个未来帧。然后,我们将预测时间范围从10个时间步长扩展到30个时间步长,以探索比较模型在进行长期预测方面的能力,每一帧包含2手写数字跳跃在64 * 64网格的图像
评估指标:SSIM
最后的预测结果:
这里的实验主要都是针对有数字重叠的时候来举例的,这种其实更能说明模型的预测能力,这里PredRNN++效果相比于其他的模型,主要的优势在于更加清晰有明显的轮廓,模糊的程度降低,在此类问题中预测越来越模糊是一个十分棘手的问题,也是需要解决的问题。
下面分析了在MNIST-2和MNIST-3上各模型的表现,这一块车哥总结的很详细:
1.表中指标有SSIM,这个值范围为-1到1,是衡量产生的预测数据和真实数据的相似度,越大说明越相似。
2.表中也对更长的预测序列做一个说明,从输出为10 time steps到30 time steps。
3.对于我前面所提出的问题做出了说明,把Casual LSTM的内部结构空间和时间memory进行对应的交换。
4.是否连有GHU结构 最终的结果由图可见,Causal LSTM+GHU的结构最好。
通过对比①和②可以说明Causal LSTM 代替ST-LSTM 效果更好
通过对比②和③可以说明还是TEMPORAL-TO-SPATIAL结构更好
通过对比④和①可以说明GHU也可以和ST-LSTM结构无缝连接,并且GHU的效果明显
通过对比⑤和②可以说明加入GHU可以得到更好的结果,如果是输出10 steps还是30 steps。
MNIST-3上新提出的PredRNN++在时间很长的情况下,依然可以保持很高的精度,有着强大的泛化和迁移能力。
接下来,作者尝试了分析GHU架在不同的层的效果,结果发现:
也就证明了1-2层之间是效果最好的,也证明了原始特征的重要性。
最后,作者又进行了梯度分析,看看PredRNN++在梯度消失减缓上是否真的有作用,车哥的总结很详细,再引用一下:
当预测的数字互相覆盖的时候,预测的难点在于,将他们分开,并且独立的目标不要失去自己的形状特征,依然能保持原有的形状。而这个的影响可能主要取决于梯度消失的问题,这个问题会防止这种很深的网络去获取长时数据的关系。
左图为每一个输入帧的最后时间步的loss函数的梯度范数,比如输入第一个图片,总共时间步移为10,那么输出第一个图片的loss求出来的梯度范数就是上图所示的值。右图为每一个输入帧出现数字覆盖情况的概率。其他模型为比较陡峭的变化曲线,而PredRNN++是一个碗状的曲线,说明可以缓解梯度消失的问题,并且这个碗装和右图的上边界的碗状相像,这说明模型学习到了长时的信息依赖。
下图分析了方法是如何简化消失梯度问题,说明了损失函数导数在最后一步相对于中间隐藏状态和内存状态的绝对值
这个数据集的描述引用我前面那篇的:
KTH动作数据集包含六种类型的人类动作(步行、慢跑、跑步、拳击、挥手和拍手),由25名受试者在四种不同的场景中多次执行:户外、具有规模变化的户外、穿着不同衣服的户外和室内. 视频帧128*128,
所有的模型,包括PredRNN以及基线,在训练集上训练所有六类行动通过生成后续10帧,通过10帧的观察。然后测试集预测未来20帧
108,717个序列的训练集和4,086个序列的测试集
作者使用峰值信噪比(PSNR)和结构相似度指标(SSIM)作为度量来评估预测结果。 PSNR强调前景外观,得分越高说明两幅图像的相似度越高。SSIM的值在-1和1之间,分数越大,说明两幅图像的相似度越大。
最后的结果:
作者再次强调自己的方法好:
观点挺有趣,对于没有高速公路的网络很容易健忘,无法记住重复的人类动作,所以会导致未来的各种可能性,最终自己都不确定预测的是啥了(模糊了)。
这块也不多说了,依然是提出了新的结构Casual-LSTM, 这个采用级联的方式,增加了非线性,可以更好的捕捉短期突变,对于长期的梯度消失,又提出了GHU结构,两者结合,接近巅峰。
那么这个结构,真的就完美了吗? 呵呵。
这篇文章整理到这里吧,结合车哥的,然后加上自己的补充,挺全乎了感觉,接下来的复现结构,大家可以关注一下车哥的(公众号AI蜗牛车和知乎),后期应该会有各个结构的复现,手把手哦,机会难得!
参考: