[監督式]NLP基礎-RNN、LSTM

RNN

RNN常用來處理序列數據，例如我們有10年每月的天氣紀錄要來預測作物收成，我們必須要知道是否有持續好幾天的高溫造成作物收成不佳，此時就需要RNN了，假如我們使用fully-connected，我們不容易知道資料的序列關係。

RNN的一個例子
假設我們有100年12個月的平均溫度、濕度、日照天數(3個特徵)紀錄共1200筆作為，以及作物收成量作為，通常RNN我們會把分成序列(seq)也分成批次(batch)執行。
例如: 序列長度(seq_len)=6就是分成6個月，每次輸入就會有6個時刻(1-5或6-12)，然後批次大小(batch_size)=10，每批中有60個序列(sequence)，表示一次輸入5年的資料，然後特徵數目(feature_num)=3。
這樣每次輸入的的矩陣形式就為：

RNN只是將上一seq的隱藏層做線性轉換後跟下一seq疊加。

RNN層計算圖

兩層rnn

：代表第一個時刻的特徵，例如:1月的平均溫度、平均濕度、日照天數，就會有3個值(ex. [15,40,10])。
：代表第二個時刻的特徵，例如:2月的平均溫度、濕度、日照天數，也會有3個值(ex. [18,40,10])。
：特徵到隱藏層(hidden layer)的權重(weight)，所有時刻共用同一組權重，尺寸為[feature_num,hidden_size]。
：隱藏層到隱藏層的權重(weight)，所有時刻共用同一組權重，尺寸為[hidden_size,hidden_size] ( 因為是全連接(fully_connected) )。
：代表上一個時刻神經元的輸出，最一開始的可以是零，也可以是上一批最後一個時刻神經元的輸出。
：這個時刻的神經元的輸出。
：這個時刻的output，也是最後一層rnn的。
：output 也是最後一層rnn的，也可以從這個Tensor使用[:]切片取最後一層取值。

原理請參考:
李弘毅老師 ML Lecture 21-1: Recurrent Neural Network (Part I)
循环神经网络RNN介绍1：什么是RNN、为什么需要RNN、前后向传播详解、Keras实现

RNN梯度爆炸解決

pytorch的nn.clip_grad_value_()、nn.clip_grad_norm_()梯度裁剪(使梯度大於或小於某個閥值時直接等於閥值)，常用來解決RNN梯度變化大造成的梯度爆炸的問題。

RNN常見的梯度爆炸問題

梯度裁剪

實作

Code from Github-gist

輸入前六個值，預測第7個值

輸入第一個點後，由第一個點預測第二個點，再由那個預測的點預測下一個點。

LSTM

引用李弘毅老師的人體LSTM

LSTM最後一層的ht就是output

實作

Code from Github-gist--Chat robot
Code from Github--sentimebt anasisly

只有epoch 100回

GRU

其他參考:
速記AI課程－深度學習入門（二）
A Beginner's Guide to LSTMs and Recurrent Neural Networks
The Unreasonable Effectiveness of Recurrent Neural Networks
Understanding LSTM Networks

[監督式]NLP基礎-RNN、LSTM

RNN

RNN梯度爆炸解決

實作

LSTM

實作

GRU

你可能感兴趣的:([監督式]NLP基礎-RNN、LSTM)