ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)

该文是2019年ICLR两篇最佳论文之一,由蒙特利尔大学MILA实验室(后面会介绍)和微软加拿大研究院联合发表。
该文最主要的贡献便是采用巧妙的有序神经元将序列中的树结构建模进去,获得了更高抽象水平的层次表示,一定程度上解决Long term dependency problem,提高了模型训练效率。
看完这篇论文,被作者巧妙的想法所打动,一个简单地改进,不仅仅带来了LSTM效果上的极大提升,还可以无监督建立词法树,绝对配得上ICLR Best Paper
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第1张图片
一如既往的按照如下五个方面进行讲解
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第2张图片
ICLR可能大家有些陌生,但是2018年图灵奖相信大家都知道,而这个大会便是2013年图灵奖三巨头之二创办的,虽然到2020届仅仅创办了8届,但目前已经可以与NIPS,ICML并驾齐驱,是名副其实的深度学习顶级会议。更有意思的该文便是出自Bengio实验室。
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第3张图片
在ICLR,NIPS,ICML这些注重基础研究的会议上论文成果经常会被AAAI,IJCAI,ACL,CVPR上的论文所采用的。看注重基础的会议发表的论文往往非常有趣,容易被那种真正的奇思妙想所打动,注重应用的会议目前便失去了这种的趣味性,总是看到各种模型的拼凑去解决一个特定的任务。像16年ICLR的GGNN便被AAAI2019的SRGNN所采用拼凑成一个解决序列推荐问题的模型。本文讲述ON_LSTM便是一个充满了趣味的模型,目前也被网络上很多大牛纷纷解读,PPT中的部分图片来源于这些大牛,已在PPT底部注明链接。
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第4张图片
下面开始模型ONLSTM部分。
传统的RNN模型总是将句子建模成序列,而现实中一句话中词与词之间的关联其实是一颗语法树的形式,RNN模型便没有建模这种层次结构的能力。
下面是作者在原文中对建模该层次结构作用的描述。
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第5张图片
建模层次结构首先可以获取该句子更高层次的抽象表示,我们看到左边的句子,同样的一句话,因为词法树的不同,理解也不同,刻画出这种层次结构有利于我们更好的表示句子。
其次,可以解决Long Term Dependency Problem问题,LSTM通过增加输入门遗忘门一定程度上解决RNN上存在的这个问题,但是ON LSTM将Cell State向量更细粒度的分拆训练,又进一步解决了这个问题。(配图为实验室师兄强行做了个残差GRU来解决这个问题)
最后便是,该模型分层后剥离了训练的多个部分,将无需训练的部分复制,可能会减少了训练量。
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第6张图片
作者论文中将这种分层描述如下(到这大家有一个整体印象便可以了,后面会详细描述如何去分层):
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第7张图片
LSTM相信大家都已经不陌生了,主要的三个门结构,cell state的更新以及隐状态的输出。
如下图
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第8张图片
ON LSTM在整体设计上其实是对LSTM cell state更新做了改变,将cell state做了分层的操作,如下图
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第9张图片
传统是对Cell State全部进行更新,Cell State 是无序的,我们打乱Cell State状态对结果没有影响。
而ON LSTM 对Cell State更新通过两个整数进行分层,然后分层进行计算,
右图中his代表历史状态需要更新部分的指针,now代表目前状态需要更新部分的指针。
橙色部分便为历史状态和当前状态都认为无需更新,
绿色交叉部分代表历史状态认为无需更新当前状态认为需要更新部分,
紫色部分为都认为当前状态更新部分,
空心圆部分为二者无交叉都不知道是否更新部分。
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第10张图片
那么我们来看ON LSTM的具体设计,首先基本的遗忘门,输入门,输出门以及C hat以及输出隐状态的计算方式完全相同,也就是只有剩下关于Cell State状态的操作不同的。
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第11张图片
首先,我们可以通过一个函数确定这两个分割区间的整数(这里函数先不做讨论,后面会具体去讲)这样区间分好了,就差更新策略了。
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第12张图片
更新的策略像之前说的一样。
his代表历史状态需要更新部分的指针也就是刚刚得到的df,now代表目前状态需要更新部分的指针也就是刚刚得到的di。
橙色部分便为历史状态和当前状态都认为无需更新(复制历史状态)
绿色交叉部分代表历史状态认为无需更新当前状态认为需要更新部分(LSTM更新)
紫色部分为都认为目前状态更新部分(复制C hat)
空心圆部分为二者无交叉都不知道是否更新部分(置为0)
详细公式如下:
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第13张图片
那么详细的过程我们见下图:
C hat以及Ct-1向ct更新如下,从上向下我们观察第一列,ct-1认为前四个无需更新,而c hat则认为前两个无需更新,那么我们就将最终的向量分成了三段。
前两段使用c t-1代替,中间两个交叉部分利用LSTM更新,底部的一个使用c hat更新,以此类推完成全部更新。
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第14张图片
至此,我们已经基本讲完了ON LSTM的核心设计
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第15张图片
那么作者又是如何将一些具体的问题解决掉从而使得模型变得真正的可训练呢?
如下图,作者设计了两个新的遗忘门和输入门来代替之前的两个整数,这又是为什么呢?
我们一步一步解开谜底。
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第16张图片
首先这两个门主要用途便是用来控制分层的,新遗忘会产生一个向量类似[1,1,1,1,1,0,0,0,0,0]将高层信息复制,同样的新输入门也会控制输入[0,0,0,0,0,1,1,1],交叉部分为两个门相乘的部分类似[0,0,1,1,0,0]来控制经过传统LSTM的更新部分。
具体公式如下:
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第17张图片
下面是作者设计的cusum函数用来产生类似[0,0,0,0,0,1,1,1]向量
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第18张图片
但我们发现产生的向量[0,0,0,0,0,1,1,1]是离散的,作者也同样跟大多数人想法一样使用softmax处理,使其变得可导。
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第19张图片
至此,整个可以跑通的模型便设计出来了,下图是整个模型架构。
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第20张图片
下面便是实验部分了,作者通过如下四个方面对该文章进行了实验,证明了建模层次结构确实有如下三方面的好处。
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第21张图片
语言模型上效果超越大多数LSTM变体
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第22张图片
我认为这里语法树的构建是该模型的一个突出亮点!也是该模型可以获得最佳论文的原因。
提升LSTM的效果有很多方法,但构建语法树独此一家,而且构建的语法树与ground truth十分吻合。
构建过程为不断的选取历史信息包含最少的点作为根节点来构建。
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第23张图片
下图为构建的语法树与ground truth对比
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第24张图片
这个任务不太清楚
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第25张图片
这个实验证明了有助于解决长期依赖问题,此实验设计可以借鉴。
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第26张图片
最后我们总结一下为什么该模型可以获得最佳论文?
首先,该模型有一定的数学理论基础,设计的很巧妙。这点与普通的GGNN没有很大的差距。但是我师兄的残差GRU便是毫无数学依据,哈哈。
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第27张图片
其次,该模型除了在各个任务上效果优秀外,还能无监督生成语法树是该文最大的亮点。
我师兄的模型,我只能用三个点来形容。
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第28张图片
最后容我狭隘一下,哈哈
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第29张图片
谢谢大家看完!
ICLR2019最佳论文: ON LSTM (RNN阵营对抗Attention的利器)_第30张图片

你可能感兴趣的:(机器学习)