大模型|基础——长短时记忆网络

文章目录

  • LSTM
    • 遗忘门
    • 输入门
    • 整合信息
    • 特点
      • 实现神经单元的内部计算
      • 门控控制——可以动态选择信息
      • 在大数据量的情况下,可有效缓解梯度

LSTM

遗忘门

大模型|基础——长短时记忆网络_第1张图片
遗忘门,是否进行遗忘。
如果通过计算,计算出来的结果为0,就选择遗弃。
如果遗忘,相当于对过去信息直接进行丢弃。
其中 σ ( ) \sigma() σ()代表激活函数,会将输出归于0到1之间的值。

输入门

整合信息

大模型|基础——长短时记忆网络_第2张图片
如果 f t = 0 f_t=0 ft=0相当于屏蔽了 C t − 1 C_{t-1} Ct1


h t − 1 h_{t-1} ht1这个参数是来自上一层的,也就是对应地,也要给下一层通过计算提供出 h t h_t ht

特点

大模型|基础——长短时记忆网络_第3张图片

实现神经单元的内部计算

门控控制——可以动态选择信息

如果信息不重要,可以通过遗忘门进行遗忘

在大数据量的情况下,可有效缓解梯度

你可能感兴趣的:(深度学习,大模型,lstm,人工智能,rnn)