BILSTM模型介绍

        BiLSTM是Bi-directional Long Short-Term Memory的缩写,是由前向LSTM与后向LSTM组合而成。LSTM模型是由在RNN基础上增加了输入门,遗忘门,单元状态,输出门组成。在网络训练过程中,可通过门结构来添加或移除信息,不同神经网络都可通过单元状态上的门结构来决定去记住或遗忘哪些相关信息。

        LSTM的计算过程可以概括为,通过对细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递,而无用的信息被丢弃,并在每个时间步都会输出隐层状态,其中遗忘,记忆与输出由通过上个时刻的隐层状态和当前输入计算出来的遗忘门,记忆门,输出门来控制。

        输入门用来更新单元状态。先将先前隐藏状态的信息和当前输入的信息输入到Sigmoid函数,在0和1之间调整输出值来决定更新哪些信息,0表示不重要,1表示重要。将隐藏状态和当前输入传输给Tanh函数,并在-1和1之间压缩数值以调节网络,然后把Tanh输出和Sigmoid输出相乘,Sigmoid输出将决定在Tanh输出中哪些信息是重要的且需要进行保留。

        遗忘门能决定应丢弃或保留哪些信息。来自隐藏状态的信息和当前输入的信息同时输入到Sigmoid函数,输出值处于0和1之间,越接近0意味着越应该忘记,越接近1意味着越应该保留。

        单元状态是能传输相关信息的通路,让信息在序列链中传递下去,这部分可看作是网络的“记忆”。在序列处理过程中,单元状态能一直携带着相关信息。在较早时间步中获得的信息也能传输到较后时间步的单元中,减弱短期记忆的影响。

        输出门能决定下个隐藏状态的值,隐藏状态中包含了先前输入的相关信息。隐藏状态也可用于预测。首先把先前的隐藏状态和当前输入传递给Sigmoid函数;接着把新得到的单元状态传递给Tanh函数;然后把Tanh输出和Sigmoid输出相乘,以确定隐藏状态应携带的信息;最后把隐藏状态作为当前单元输出,把新的单元状态和新的隐藏状态传输给下个时间步。

BILSTM优点:

        LSTM模型是由在RNN基础上增加了门机制和记忆单元,有效的防止了梯度爆炸和梯度消失,同时更好的捕捉到较长距离的依赖,使用BILSTM可以捕捉到双向的语义依赖。

资料收集于网络资源。

你可能感兴趣的:(深度学习,神经网络,rnn,lstm,自然语言处理)