程序媛小哨

独家思维导图！让你秒懂李宏毅2020深度学习（六）—— Recurrent Neural Network（RNN）

有点遗憾，因为博主马上要开学了，可能会很长时间才会更新这个专栏，于是博主决定开学前的最后一篇博文选择后面内容中比较重要的一个内容更新一篇，这个内容相较于来说不是那么费解，然而它的思想却十分重要，是学习NLP必备的基础知识，至于其他的半监督学习，监督学习，强化学习，SVM，博主之后随缘可能会更！看大家对我的支持程度吧。
p.s.注意：在这里面博主会讲李宏毅老师的例子的流程完完整整的写下来，避免大家理解有误。

系列文章传送门：
独家思维导图！让你秒懂李宏毅2020机器学习（一）—— Regression回归
独家思维导图！让你秒懂李宏毅2020机器学习（二）—— Classification分类
独家思维导图！让你秒懂李宏毅2020深度学习（三）—— 深度学习基础（神经网络和反向传播部分）
独家思维导图！让你秒懂李宏毅2020深度学习（四）—— CNN（Convolutional Neural network）
独家思维导图！让你秒懂李宏毅2020深度学习（五）—— Tips for Deep Leaning & Why Deep?
独家思维导图！让你秒懂李宏毅2020深度学习（六）—— Recurrent Neural Network（RNN）

文章目录

独家思维导图！让你秒懂李宏毅2020深度学习（六）—— Recurrent Neural Network（RNN）
- Why RNN?
- - Slot Filling with RNN
  - Elman Network & Jordan Network
  - Bidirectional RNN
  - LSTM(重点)
  - - Three-gate
  - Memory Cell
  - LSTM Example(精华必看，完整论述)
  - LSTM Structure
  - LSTM for RNN
- How to train RNN?
- - Learning Target
  - - Loss Function
    - Training
    - Error Surface
    - - Clipping
  - Help Techniques

Why RNN?

李老师拿智能客服、智能订票的例子说明了RNN产生的必要性：
我们可以尝试使⽤Feedforward Neural Network来分析词汇，判断出它是属于时间或是⽬的地的概率
但是在下图所示的两个场景中
输⼊都是“Taipei”，传统DNN没有办法区分出“Taipei”是出发地还是⽬的地。
这个时候我们就希望神经⽹络是有记忆的，如果NN在看到“Taipei”的时候，还能记住之前已经看过的
“arrive”或是“leave”，就可以根据上下⽂得到正确的答案。
这种有记忆⼒的神经⽹络，就叫做Recurrent Neural Network(RNN)

在RNN中，hidden layer每次产⽣的output $a_1$ 、 $a_2$ ，都会被存到memory⾥，下⼀次有input的时候，这些neuron就不仅会考虑新输⼊的 $x_1$ 、 $x_2$ ，还会考虑存放在memory中的 $a_1$ 、 $a_2$
p.s.在input之前，要先给内存⾥的 $a_i$ 赋初始值，⽐如0

注意到，每次NN的输出都要考虑memory中存储的临时值，⽽不同的输⼊产⽣的临时值也尽不相同，因此改变输⼊序列的顺序会导致最终输出结果的改变(Changing the sequence order will change the output)

Slot Filling with RNN

⽤RNN处理Slot Filling的流程举例如下：

“arrive”的vector作为 $x^1$ 输⼊RNN，通过hidden layer⽣成 $a^1$ ，再根据 $a^1$ ⽣成 $y^1$ ，表⽰“arrive”属于每个slot的概率，其中 $a^1$ 会被存储到memory中
“Taipei”的vector作为 $x^2$ 输⼊RNN，此时hidden layer同时考虑 $x^2$ 和存放在memory中的 $a^1$ ，⽣成 $a^2$ ，再根据 $a^2$ ⽣成 $y^2$ ，表⽰“Taipei”属于某个slot的概率，此时再把 $a^2$ 存到memory中
依次类推

注意：上图为同⼀个RNN在三个不同时间点被分别使⽤了三次，并⾮是三个不同的NN
这个时候，即使输⼊同样是“Taipei”，我们依旧可以根据前⽂的“leave”或“arrive”来得到不⼀样的输出

Elman Network & Jordan Network

RNN有不同的变形：
Elman Network：将hidden layer的输出保存在memory⾥
Jordan Network：将整个neural network的输出保存在memory⾥
由于hidden layer没有明确的训练⽬标，⽽整个NN具有明确的⽬标，因此Jordan Network的表现会更好⼀些

Bidirectional RNN

RNN 还可以是双向的，你可以同时训练⼀对正向和反向的RNN，把它们对应的hidden layer拿出来，都接给⼀个output layer，得到最后的
使⽤Bi-RNN的好处是，NN在产⽣输出的时候，它能够看到的范围是⽐较⼴的，RNN在产⽣的时候，它不只看了从句⾸开始到的输⼊，还看了从句尾⼀直到的输⼊，这就相当于RNN在看了整个句⼦之后，才决定每个词汇具体要被分配到哪⼀个槽中，这会⽐只看句⼦的前⼀半要更好

LSTM(重点)

前⽂提到的RNN只是最简单的版本，并没有对memory的管理多加约束，可以随时进⾏读取，⽽现在常
⽤的memory管理⽅式叫做⻓短期记忆(Long Short-term Memory)，简称LSTM

冷知识：可以被理解为⽐较⻓的短期记忆，因此是short-term，⽽⾮是long-short term

Three-gate

LSTM有三个gate：

input gate决定了某个neuron的输出是否能被写进memory cell，如果input gate关闭，则任何内容都⽆法被写⼊，⽽关闭与否、什么时候关闭，都是由神经⽹络⾃
⼰学习到的
output gate决定了外界是否可以从memory cell中读取值，当output gate关闭的时候，memory
⾥⾯的内容同样⽆法被读取
forget gate决定了什么时候需要把memory cell⾥存放的内容忘记清空，什么时候依旧保存。

整个LSTM可以看做是4个input，1个output：

4个input=想要被存到memory cell⾥的值+操控input gate的信号+操控output gate的信号+操控forget gate的信号。
1个output=想要从memory cell中被读取的值

Memory Cell

如果从表达式的⻆度看LSTM，它⽐较像下图中的样⼦

$z$ 是想要被存到cell⾥的输⼊值
$z_i$ 是操控input gate的信号
$z_o$ 是操控output gate的信号
$z_f$ 是操控forget gate的信号
$a$ 是综合上述4个input得到的output值

把 $z$ 、 $z_i$ 、 $z_o$ 、 $z_f$ 通过activation function，分别得到 $g (z)$ 、 $f(z_i)$ 、 $f(z_o)$ 、 $f(z_f)$

其中对 $z_i$ 、 $z_o$ 、 $z_f$ 来说，它们通过的激活函数 $f ()$ ⼀般会选sigmoid function，因为它的输出在0~1之间，代表gate被打开的程度

令 $g (z)$ 与 $f(z_i)$ 相乘得到 $g(z)·f(z_i)$ ，然后把原先存放在cell中的 $c$ 与 $f(z_f)$ 相乘得到 $cf(z_f)$ ，两者相加得到存在memory中的新值 $c'=g(z)·f(z_i)+cf(z_f)$

若 $f(z_i)=0$ ，则相当于没有输⼊，若 $f(z_i)=1$ ，则相当于直接输⼊ $g (z)$
若 $f(z_f)=1$ ，则保存原来的值 $c$ 并加到新的值上，若 $f(z_f)=0$ ，则旧的值将被遗忘清除

从中也可以看出，forget gate的逻辑与我们的直觉是相反的，控制信号打开表⽰记得，关闭表⽰遗忘
此后， $c^{'}$ 通过激活函数得到 $h (c^{'})$ ，与output gate的 $f(z_o)$ 相乘，得到输出 $a=h(c')f(z_o)$

LSTM Example(精华必看，完整论述)

下图演⽰了⼀个LSTM的基本过程，

刚开始这个训练好的LSTM各权值如下，memory cell中的初始值为0，

$g (x) = x, h (x) = x, f (x) = s i g m o i d (x)$
$x_1$ 、 $x_2$ 、 $x_3$ 是输⼊序列
$z$ 是想要被存到cell⾥的输⼊值
$z=1x_1+0x_2+0x_3+0×1=x_1$
$z_i$ 是操控input gate的信号
$z_i=0x_1+100x_2+0x_3+1×(-10)=100x_2-10$
$z_f$ 是操控forget gate的信号
$z_f=0x_1+100x_2+0x_3+1×10=100x_2+10$
$z_f$ 是操控output gate的信号
$z_o=0x_1+0x_2+100x_3+1×(-10)=100x_3-10$
$c$ 是memory cell中的旧值, $c^{'}$ 是memory cell中的新值
$c'=g(z)·f(z_i)+cf(z_f)$
$a$ 是综合上述4个input得到的output值
$a=h(c')f(z_o)$
$y$ 是输出序列

一、

$g (x) = x, h (x) = x, f (x) = s i g m o i d (x)$
$x_1$ 、 $x_2$ 、 $x_3=3、1、0$
$z$ 是想要被存到cell⾥的输⼊值
$z=1x_1+0x_2+0x_3+0×1=x_1=3$
$g (z) = 3$
$z_i$ 是操控input gate的信号
$z_i=0x_1+100x_2+0x_3+1×(-10)=100x_2-10=90$
$f(z_i)=1$
$z_f$ 是操控forget gate的信号
$z_f=0x_1+100x_2+0x_3+1×10=100x_2+10=110$
$f(z_f)=1$
$z_o$ 是操控output gate的信号
$z_o=0x_1+0x_2+100x_3+1×(-10)=100x_3-10=-10$
$f(z_o)=0$
$c$ 是memory cell中的旧值, $c^{'}$ 是memory cell中的新值
$c'=g(z)·f(z_i)+cf(z_f)=3×1+0×1=3$
$a$ 是综合上述4个input得到的output值
$a=h(c')f(z_o)=3×0=0$
$y = 0$

二、
$g (x) = x, h (x) = x, f (x) = s i g m o i d (x)$
$x_1$ 、 $x_2$ 、 $x_3=4、1、0$
$z$ 是想要被存到cell⾥的输⼊值
$z=1x_1+0x_2+0x_3+0×1=x_1=4$
$g (z) = 4$
$z_i$ 是操控input gate的信号
$z_i=0x_1+100x_2+0x_3+1×(-10)=100x_2-10=90$
$f(z_i)=1$
$z_f$ 是操控forget gate的信号
$z_f=0x_1+100x_2+0x_3+1×10=100x_2+10=110$
$f(z_f)=1$
$z_o$ 是操控output gate的信号
$z_o=0x_1+0x_2+100x_3+1×(-10)=100x_3-10=-10$
$f(z_o)=0$
$c$ 是memory cell中的旧值, $c^{'}$ 是memory cell中的新值
$c'=g(z)·f(z_i)+cf(z_f)=4×1+3×1=7$
$a$ 是综合上述4个input得到的output值
$a=h(c')f(z_o)=7×0=0$
$y = 0, 0$

三、
$g (x) = x, h (x) = x, f (x) = s i g m o i d (x)$
$x_1$ 、 $x_2$ 、 $x_3=2、0、0$
$z$ 是想要被存到cell⾥的输⼊值
$z=1x_1+0x_2+0x_3+0×1=x_1=2$
$g (z) = 2$
$z_i$ 是操控input gate的信号
$z_i=0x_1+100x_2+0x_3+1×(-10)=100x_2-10=-10$
$f(z_i)=0$
$z_f$ 是操控forget gate的信号
$z_f=0x_1+100x_2+0x_3+1×10=100x_2+10=10$
$f(z_f)=1$
$z_o$ 是操控output gate的信号
$z_o=0x_1+0x_2+100x_3+1×(-10)=100x_3-10=-10$
$f(z_o)=0$
$c$ 是memory cell中的旧值, $c^{'}$ 是memory cell中的新值
$c'=g(z)·f(z_i)+cf(z_f)=2×0+7×1=7$
$a$ 是综合上述4个input得到的output值
$a=h(c')f(z_o)=7×0=0$
$y = 0, 0, 0$

四、

$g (x) = x, h (x) = x, f (x) = s i g m o i d (x)$
$x_1$ 、 $x_2$ 、 $x_3=1、0、1$
$z$ 是想要被存到cell⾥的输⼊值
$z=1x_1+0x_2+0x_3+0×1=x_1=1$
$g (z) = 1$
$z_i$ 是操控input gate的信号
$z_i=0x_1+100x_2+0x_3+1×(-10)=100x_2-10=-10$
$f(z_i)=0$
$z_f$ 是操控forget gate的信号
$z_f=0x_1+100x_2+0x_3+1×10=100x_2+10=10$
$f(z_f)=1$
$z_o$ 是操控output gate的信号
$z_o=0x_1+0x_2+100x_3+1×(-10)=100x_3-10=90$
$f(z_o)=1$
$c$ 是memory cell中的旧值, $c^{'}$ 是memory cell中的新值
$c'=g(z)·f(z_i)+cf(z_f)=1×0+7×1=7$
$a$ 是综合上述4个input得到的output值
$a=h(c')f(z_o)=7×1=7$
$y = 0, 0, 0, 7$

五、
$g (x) = x, h (x) = x, f (x) = s i g m o i d (x)$
$x_1$ 、 $x_2$ 、 $x_3=3、-1、0$
$z$ 是想要被存到cell⾥的输⼊值
$z=1x_1+0x_2+0x_3+0×1=x_1=3$
$g (z) = 3$
$z_i$ 是操控input gate的信号
$z_i=0x_1+100x_2+0x_3+1×(-10)=100x_2-10=90$
$f(z_i)=1$
$z_f$ 是操控forget gate的信号
$z_f=0x_1+100x_2+0x_3+1×10=100x_2+10=-90$
$f(z_f)=0$
$z_o$ 是操控output gate的信号
$z_o=0x_1+0x_2+100x_3+1×(-10)=100x_3-10=-10$
$f(z_o)=0$
$c$ 是memory cell中的旧值, $c^{'}$ 是memory cell中的新值
$c'=g(z)·f(z_i)+cf(z_f)=3×0+7×0=0$
$a$ 是综合上述4个input得到的output值
$a=h(c')f(z_o)=7×0=0$
$y = 0, 0, 0, 7, 0$

LSTM Structure

你可能会觉得上⾯的结构与平常所⻅的神经⽹络不太⼀样，实际上我们只需要把LSTM整体看做是下⾯的⼀个neuron即可

假设⽬前我们的hidden layer只有两个neuron，则结构如下图所⽰：

输⼊ $x_1、x_2$ 会分别乘上四组不同的weight，作为neuron的输⼊以及三个状态⻔的控制信号
在原来的neuron⾥，1个input对应1个output，⽽在LSTM⾥，4个input才产⽣1个output，并且所有的input都是不相同的
从中也可以看出LSTM所需要的参数量是⼀般NN的4倍

LSTM for RNN

假设我们现在有⼀整排的LSTM作为neuron，每个LSTM的cell⾥都存了⼀个scalar值，把所有的scalar 连接起来就组成了⼀个vector $c^{t-1}$
在时间点t，输⼊了⼀个vector $x^t$ ，它会乘上⼀个matrix，通过转换得到 z，⽽的每个dimension就代表了操控每个LSTM的输⼊值，同理经过不同的转换得到 $z^i$ 、 $z^f$ 和 $z^o$ ，得到操控每个LSTM的⻔信号

下图是单个LSTM的运算情景，其中LSTM的4个input分别是 $z$ 、 $z^i$ 、 $z^f$ 和 $z^o$ 的其中1维，每个LSTM的cell 所得到的input都是各不相同的，但它们却是可以⼀起共同运算的，整个运算流程如下图左侧所⽰：

$f(z^f)$ 与上⼀个时间点的cell值 $c^{t-1}$ 相乘，并加到经过input gate的输⼊ $g(z).f(z^i)$ 上，得到这个时刻cell中的值 $c^t$ ，最终再乘上output gate的信号 $f(z^o)$ ，得到输出 $y^t$

上述的过程反复进⾏下去，就得到下图中各个时间点上，LSTM值的变化情况，其中与上⾯的描述略有不同的是，这⾥还需要把hidden layer的最终输出 $y^t$ 以及当前cell的值都连接到下⼀个时间点的输⼊上

因此在下⼀个时间点操控这些gate值，不只是看输⼊的 $x^{t+1}$ ，还要看前⼀个时间点的输出 $h^t$ 和cell值 $c^t$ ，你需要把 $x^{t+1}$ | $h^t$ 和 $c^t$ 这3个vector并在⼀起，乘上4个不同的转换矩阵，去得到LSTM的4个输⼊值 $z$ 、 $z^i$ 、 $z^f$ 和 $z^o$ ，再去对LSTM进⾏操控

注意：下图是同⼀个LSTM在两个相邻时间点上的情况

上图是单个LSTM作为neuron的情况，事实上LSTM基本上都会叠多层，如下图所⽰，左边两个LSTM代表了两层叠加，右边两个则是它们在下⼀个时间点的状态

How to train RNN?

Learning Target

Loss Function

以刚刚的Slot Filling为例⼦，我们需要把model的输出 $y^i$ 与映射到slot的reference vector求交叉熵，⽐如“Taipei”对应到的是“dest”这个slot，则reference vector在“dest”位置上值为1，其余维度值为0

RNN的output和reference vector的cross entropy之和就是损失函数，也是要minimize的对象

p.s. word要依次输⼊model，⽐如“arrive”必须要在“Taipei”前输⼊，不能打乱语序

Training

有了损失函数后，训练其实也是⽤梯度下降法，为了计算⽅便，这⾥采取了反向传播(Backpropagation)的进阶版，Backpropagation through time，简称BPTT算法

但在训练RNN 的时候，可能会遇到类似绿⾊曲线⼀样的学习曲线，loss剧烈抖动，并且会在某个时刻跳到⽆穷⼤，导致程序运⾏失败。

Error Surface

分析可知，RNN的error surface，即loss由于参数产⽣的变化，是⾮常陡峭崎岖的

图中， z轴代表loss，x轴和y轴代表两个参数w1和w2，可以看到loss在某些地⽅⾮常平坦，在某些地⽅⼜⾮常的陡峭

如果此时你的训练过程类似下图中从下往上的橙⾊的点，它先经过⼀块平坦的区域，⼜由于参数的细微变化跳上了悬崖，这就会导致loss上下抖动得⾮常剧烈

如果你的运⽓特别不好，⼀脚踩在悬崖上，由于之前⼀直处于平坦区域，gradient很⼩，你会把参数更新的步⻓(learning rate)调的⽐较⼤，⽽踩到悬崖上导致gradient突然变得很⼤，这会导致参数⼀下⼦被更新了⼀个⼤步伐，导致整个就⻜出去了，这就是学习曲线突然跳到⽆穷⼤的原因

Clipping

想要解决这个问题，就要采⽤Clipping⽅法，当gradient即将⼤于某个threshold的时候，就让它停⽌增⻓，⽐如当gradient⼤于15的时候就直接让它等于15

为什么RNN会有这种奇特的特性呢？下图给出了⼀个直观的解释：

假设RNN只含1个neuron，它是linear的，input和output的weight都是1，没有bias，从当前时刻的memory值接到下⼀时刻的input的weight是w，按照时间点顺序输⼊[1, 0, 0, 0, …, 0]

当第1个时间点输⼊1的时候，在第1000个时间点，RNN输出的 $y^1000=w^999$ ，想要知道参数w的梯度，只需要改变w的值，观察对RNN的输出有多⼤的影响即可：

当w从1->1.01，得到的 $y^1000$ 就从1变到了20000，这表⽰w的梯度很⼤，需要调低学习率
当w从0.99->0.01，则 $y^1000$ ⼏乎没有变化，这表⽰的梯度很⼩，需要调⾼学习率
从中可以看出gradient时⼤时⼩，error surface很崎岖，尤其是在w=1的周围，gradient⼏乎是突变的，这让我们很难去调整learning rate

因此我们可以解释，RNN训练困难，是由于它把同样的操作在不断的时间转换中重复使⽤

从memory接到neuron输⼊的参数，在不同的时间点被反复使⽤，的变化有时候可能对RNN的输出没有影响，⽽⼀旦产⽣影响，经过⻓时间的不断累积，该影响就会被放得⽆限⼤，因此RNN经常会遇到这两个问题：

梯度消失(gradient vanishing)，⼀直在梯度平缓的地⽅停滞不前
梯度爆炸(gradient explode)，梯度的更新步伐迈得太⼤导致直接⻜出有效区间

Help Techniques

有什么技巧可以帮我们解决这个问题呢？LSTM就是最⼴泛使⽤的技巧，它会把error surface上那些⽐较平坦的地⽅拿掉，从⽽解决梯度消失(gradient vanishing)的问题，但它⽆法处理梯度崎岖的部分，因
⽽也就⽆法解决梯度爆炸的问题(gradient explode)

但由于做LSTM的时候，⼤部分地⽅的梯度变化都很剧烈，因此训练时可以放⼼地把learning rate设的⼩⼀些

LSTM可以解决RNN梯度消失的问题:
RNN和LSTM对memory的处理其实是不⼀样的：

在RNN中，每个新的时间点，memory⾥的旧值都会被新值所覆盖
在LSTM中，每个新的时间点，memory⾥的值会乘上 $f(g_f)$ 与新值相加
对RNN来说，w对memory的影响每次都会被清除，⽽对LSTM来说，除⾮forget gate被打开，否则w对memory的影响就不会被清除，⽽是⼀直累加保留，因此它不会有梯度消失的问题

参考文章
https://github.com/Sakura-gh/ML-notes

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
神经网络-损失函数红米煮粥神经网络人工智能深度学习
文章目录一、回归问题的损失函数1.均方误差（MeanSquaredError,MSE）2.平均绝对误差（MeanAbsoluteError,MAE）二、分类问题的损失函数1.0-1损失函数（Zero-OneLossFunction）2.交叉熵损失（Cross-EntropyLoss）3.合页损失（HingeLoss）三、总结在神经网络中，损失函数（LossFunction）扮演着至关重要的角色，它
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息

独家思维导图！让你秒懂李宏毅2020深度学习（六）—— Recurrent Neural Network（RNN）

独家思维导图！让你秒懂李宏毅2020深度学习（六）—— Recurrent Neural Network（RNN）

文章目录

Why RNN?

Slot Filling with RNN

Elman Network & Jordan Network

Bidirectional RNN

LSTM(重点)

Three-gate

Memory Cell

LSTM Example(精华必看，完整论述)

LSTM Structure

LSTM for RNN

How to train RNN?

Learning Target

Loss Function

Training

Error Surface

Clipping

Help Techniques

你可能感兴趣的:(深度学习,神经网络,机器学习,人工智能,深度学习)