RNN LSTM语言模型 ——RNN

RNN的结构

RNN的缺点

ref:https://blog.csdn.net/jizhidexiaoming/article/details/81743584

  • 梯度消失

  • 梯度爆炸

梯度消失:一句话,RNN梯度消失是因为激活函数tanh函数的倒数在0到1之间,反向传播时更新前面时刻的参数时,当参数W初始化为小于1的数,则多个(tanh函数’ * W)相乘,将导致求得的偏导极小(小于1的数连乘),从而导致梯度消失。

梯度爆炸:当参数初始化为足够大,使得tanh函数的倒数乘以W大于1,则将导致偏导极大(大于1的数连乘),从而导致梯度爆炸。



RNN的不同结构

one to one:常常用在图像分类,没有循环结构比较简单

one to many:常常用在图片描述,输入一张图片输出一堆文字

many to one:常常用在文本的情感分析,(yej:时序预测也可以)。
第四个和第五个有什么区别?
many to many:一般做机器翻译,输入和输出不同(Seq2Seq)。

many to many:输入和输出的个数是一样的,往往做视频分类。


考虑上下文
精度更高,但是计算量更多。


LSTM

缓解RNN的梯度消失和梯度爆炸

你可能感兴趣的:(RNN LSTM语言模型 ——RNN)