[監督式]NLP基礎-RNN、LSTM

RNN

RNN常用來處理序列數據,例如我們有10年每月的天氣紀錄要來預測作物收成,我們必須要知道是否有持續好幾天的高溫造成作物收成不佳,此時就需要RNN了,假如我們使用fully-connected,我們不容易知道資料的序列關係。

  • RNN的一個例子
    假設我們有100年12個月的平均溫度、濕度、日照天數(3個特徵)紀錄共1200筆作為,以及作物收成量作為,通常RNN我們會把分成序列(seq)也分成批次(batch)執行。
    例如: 序列長度(seq_len)=6就是分成6個月,每次輸入就會有6個時刻(1-5或6-12),然後批次大小(batch_size)=10,每批中有60個序列(sequence),表示一次輸入5年的資料,然後特徵數目(feature_num)=3。
    這樣每次輸入的的矩陣形式就為:

RNN只是將上一seq的隱藏層做線性轉換後跟下一seq疊加。


RNN層計算圖

兩層rnn

  • :代表第一個時刻的特徵,例如:1月的平均溫度、平均濕度、日照天數,就會有3個值(ex. [15,40,10])。
  • :代表第二個時刻的特徵,例如:2月的平均溫度、濕度、日照天數,也會有3個值(ex. [18,40,10])。
  • :特徵到隱藏層(hidden layer)的權重(weight),所有時刻共用同一組權重,尺寸為[feature_num,hidden_size]。
  • :隱藏層 到 隱藏層的權重(weight),所有時刻共用同一組權重,尺寸為[hidden_size,hidden_size] ( 因為是全連接(fully_connected) )。
  • :代表上一個時刻神經元的輸出,最一開始的可以是零,也可以是上一批最後一個時刻神經元的輸出。
  • :這個時刻的神經元的輸出。
  • :這個時刻的output,也是最後一層rnn的。
  • :output 也是最後一層rnn的,也可以從這個Tensor使用[:]切片取最後一層取值。

原理請參考:
李弘毅老師 ML Lecture 21-1: Recurrent Neural Network (Part I)
循环神经网络RNN介绍1:什么是RNN、为什么需要RNN、前后向传播详解、Keras实现

RNN梯度爆炸解決

pytorch的nn.clip_grad_value_()、nn.clip_grad_norm_()梯度裁剪(使梯度大於或小於某個閥值時直接等於閥值),常用來解決RNN梯度變化大造成的梯度爆炸的問題。

RNN常見的梯度爆炸問題

梯度裁剪

實作

Code from Github-gist

輸入前六個值,預測第7個值

輸入第一個點後,由第一個點預測第二個點,再由那個預測的點預測下一個點。

LSTM

引用李弘毅老師的人體LSTM

引用李弘毅老師的人體LSTM

引用李弘毅老師的人體LSTM

引用李弘毅老師的人體LSTM





LSTM最後一層的ht就是output

實作

Code from Github-gist--Chat robot
Code from Github--sentimebt anasisly


只有epoch 100回

GRU

其他參考:
速記AI課程-深度學習入門(二)
A Beginner's Guide to LSTMs and Recurrent Neural Networks
The Unreasonable Effectiveness of Recurrent Neural Networks
Understanding LSTM Networks

你可能感兴趣的:([監督式]NLP基礎-RNN、LSTM)