RNN、LSTM、Seq2Seq

目录

  • 时间序列表示
  • 梯度弥散和梯度爆炸
  • RNN(循环神经网络)
  • LSTM
  • Seq2Seq
  • ELMo

时间序列表示

核心是加入历史信息去预测下一步骤

在NLP中,序列维度一般是这个样子:[b,seq_len,feature_len]
b个句子,每个句子seq_len个单词,每个单词feature_len个维度

NLP大部分是和时间相关的

步长,在计算机又叫记忆,比如预测一个点的值,是用多长的步长去预测它,要根据不同数据选择不同的步长

Embedding是词向量的分布式表示
RNN、LSTM、Seq2Seq_第1张图片

梯度弥散和梯度爆炸

当解决短文本没有这个问题,解决长文本时,这个模型就有问题
RNN、LSTM、Seq2Seq_第2张图片
RNN、LSTM、Seq2Seq_第3张图片

RNN(循环神经网络)

RNN、LSTM、Seq2Seq_第4张图片
xt@wxh是自身的影响,ht@wxh是历史信息的影响

RNN、LSTM、Seq2Seq_第5张图片
RNN、LSTM、Seq2Seq_第6张图片
只要Y4的输出信息,因为Y4记录了前面的历史信息,所以4个单词就变成只要1个单词

多层循环神经网络
RNN、LSTM、Seq2Seq_第7张图片

堆叠RNN
RNN、LSTM、Seq2Seq_第8张图片
信息越来越明确、清晰

双向RNN
RNN、LSTM、Seq2Seq_第9张图片
反向进行也有可能让信息更加明确

LSTM

由RNN来的,在此基础上增加一些门控机制,门控用来选择存储哪些历史信息
RNN、LSTM、Seq2Seq_第10张图片
RNN、LSTM、Seq2Seq_第11张图片
ft决定遗忘哪些信息

RNN、LSTM、Seq2Seq_第12张图片
it和Ct决定学习哪些新信息

RNN、LSTM、Seq2Seq_第13张图片

Seq2Seq

编码解码模型
RNN、LSTM、Seq2Seq_第14张图片

ELMo

用来预训练语言模型
相当于2个双向的LSTM
RNN、LSTM、Seq2Seq_第15张图片

注意力机制:在Seq2Seq中注意到每个单词的重要程度

你可能感兴趣的:(cv和nlp学习,rnn,lstm,人工智能)