#论文 《Towards Binary-Valued Gates for Robust LSTM Training》

前两周就看到这篇论文的微信号文章介绍了,今天有空拿出来看一下,梳理一下思想。

这个论文主要解决的是在LSTM中,发现记忆门和遗忘门的值的分布不够显著,和LSTM设计思想中想让门表示记忆或者遗忘的意思不太一致,所以论文作者提出了用一种方法(Gumbel- Softmax estimator)来对门中的阈值进行改进,从而让阈值更加显著的趋向0或者1,近似二值化。这样做有几个好处:

  1. 和设计遗忘门和记忆门的初衷更加符合,让记忆的就记住,遗忘的就忘掉。让这些门开就是开,关就是关,而不是所有门都模模糊糊的在中间值附近游荡。

  2. 0-1化的模型参数,更容易压缩。

  3. 泛化能力更强。

作者验证了门的输出对于输入值不敏感,可以通过low-rank approximation and low-precision approximation对数据进行压缩,压缩后得到的模型的性能没有下降,反而更加鲁棒和更有泛化性。

下面是直观的表示,是否二值化前后的门中的值的数据分布对比,可以看出,确实更加显著的向两端分化了。

#论文 《Towards Binary-Valued Gates for Robust LSTM Training》_第1张图片

 

#论文 《Towards Binary-Valued Gates for Robust LSTM Training》_第2张图片

 

最主要要学习的思想,还是验证假设的思想。在LSTM中,对遗忘门和记忆门的假设,去真正看下门内的值的分布,从而去探究模型内部是否有问题,然后才想办法去纠正这个问题,查看是否会有提升。

 

 

你可能感兴趣的:(DL,LSTM,DL)