[论文回顾] LSTM:A Search Space Odyssey

这篇论文所讲的内容就是作者借助三个著名的实验——TIMIT语音识别、手写字识别、复调音乐建模,来探索vanilla LSTM以及它的8个变体的性能差异;并且同时也探索了它们的共同影响因素。首先,对于vanilla LSTM可以参考2005年Graves&Schmidhuber的语音识别论文,即包含输入门、遗忘门、输出门、细胞单元、隐含单元,同时包括了细胞单元与各个门之间的peephole。而其他八个LSTM变体分别是:

    (1)没有输入门NIG

    (2)没有遗忘门NFG

    (3)没有输出门NOG

    (4)没有输入激活函数NIAF

    (5)没有输出激活函数NOAF

    (6)没有peepholeNP

    (7)将输入门与遗忘门耦合CIFG

    (8)全循环门FGR

文章通过三个实验比较它们之间的性能差异,得出的结论是:

    (1)vanilla LSTM的性能是最厉害的,其他八个变体并没有什么性能提升;

    (2)CIFG和NP严重降低了LSTM的性能;

    (3)遗忘门和输出门是LSTM结构最重要的两个部分,其中遗忘门对LSTM的性能影响十分关键,输出门影响了细胞单元的边界;

    (4)学习率和隐含层个数是LSTM最主要的调节参数,而动量因子被发现影响不大,高斯噪音的引入对TIMIT实验性能提升显著,而对于另外两个实验有降低性能的劣势;

    (5)超参分析表明学习率与隐含层个数之间并没有什么关系,因此可以独立调参,另外,学习率可以先使用一个小的网络结构进行校准,这样可以节省很多时间。

你可能感兴趣的:(LSTM)