visionshop

详解LSTM

零基础入门深度学习(6) - 长短时记忆网络(LSTM)

机器学习 深度学习入门

https://www.zybuluo.com/hanbingtao/note/581764

无论即将到来的是大数据时代还是人工智能时代，亦或是传统行业使用人工智能在云上处理大数据的时代，作为一个有理想有追求的程序员，不懂深度学习（Deep Learning）这个超热的技术，会不会感觉马上就out了？现在救命稻草来了，《零基础入门深度学习》系列文章旨在讲帮助爱编程的你从零基础达到入门级水平。零基础意味着你不需要太多的数学知识，只要会写程序就行了，没错，这是专门为程序员写的文章。虽然文中会有很多公式你也许看不懂，但同时也会有更多的代码，程序员的你一定能看懂的（我周围是一群狂热的Clean Code程序员，所以我写的代码也不会很差）。

文章列表

零基础入门深度学习(1) - 感知器
零基础入门深度学习(2) - 线性单元和梯度下降
零基础入门深度学习(3) - 神经网络和反向传播算法
零基础入门深度学习(4) - 卷积神经网络
零基础入门深度学习(5) - 循环神经网络
零基础入门深度学习(6) - 长短时记忆网络(LSTM)
零基础入门深度学习(7) - 递归神经网络

往期回顾

在上一篇文章中，我们介绍了循环神经网络以及它的训练算法。我们也介绍了循环神经网络很难训练的原因，这导致了它在实际应用中，很难处理长距离的依赖。在本文中，我们将介绍一种改进之后的循环神经网络：长短时记忆网络(Long Short Term Memory Network, LSTM)，它成功的解决了原始循环神经网络的缺陷，成为当前最流行的RNN，在语音识别、图片描述、自然语言处理等许多领域中成功应用。但不幸的一面是，LSTM的结构很复杂，因此，我们需要花上一些力气，才能把LSTM以及它的训练算法弄明白。在搞清楚LSTM之后，我们再介绍一种LSTM的变体：GRU (Gated Recurrent Unit)。它的结构比LSTM简单，而效果却和LSTM一样好，因此，它正在逐渐流行起来。最后，我们仍然会动手实现一个LSTM。

长短时记忆网络是啥

我们首先了解一下长短时记忆网络产生的背景。回顾一下零基础入门深度学习(5) - 循环神经网络中推导的，误差项沿时间反向传播的公式：

我们可以根据下面的不等式，来获取的模的上界（模可以看做对中每一项值的大小的度量）：

我们可以看到，误差项从t时刻传递到k时刻，其值的上界是的指数函数。分别是对角矩阵和矩阵W模的上界。显然，除非乘积的值位于1附近，否则，当t-k很大时（也就是误差传递很多个时刻时），整个式子的值就会变得极小（当乘积小于1）或者极大（当乘积大于1），前者就是梯度消失，后者就是梯度爆炸。虽然科学家们搞出了很多技巧（比如怎样初始化权重），让的值尽可能贴近于1，终究还是难以抵挡指数函数的威力。

梯度消失到底意味着什么？在零基础入门深度学习(5) - 循环神经网络中我们已证明，权重数组W最终的梯度是各个时刻的梯度之和，即：

假设某轮训练中，各时刻的梯度以及最终的梯度之和如下图：

我们就可以看到，从上图的t-3时刻开始，梯度已经几乎减少到0了。那么，从这个时刻开始再往之前走，得到的梯度（几乎为零）就不会对最终的梯度值有任何贡献，这就相当于无论t-3时刻之前的网络状态h是什么，在训练中都不会对权重数组W的更新产生影响，也就是网络事实上已经忽略了t-3时刻之前的状态。这就是原始RNN无法处理长距离依赖的原因。

既然找到了问题的原因，那么我们就能解决它。从问题的定位到解决，科学家们大概花了7、8年时间。终于有一天，Hochreiter和Schmidhuber两位科学家发明出长短时记忆网络，一举解决这个问题。

其实，长短时记忆网络的思路比较简单。原始RNN的隐藏层只有一个状态，即h，它对于短期的输入非常敏感。那么，假如我们再增加一个状态，即c，让它来保存长期的状态，那么问题不就解决了么？如下图所示：

新增加的状态c，称为单元状态(cell state)。我们把上图按照时间维度展开：

上图仅仅是一个示意图，我们可以看出，在t时刻，LSTM的输入有三个：当前时刻网络的输入值、上一时刻LSTM的输出值、以及上一时刻的单元状态；LSTM的输出有两个：当前时刻LSTM输出值、和当前时刻的单元状态。注意、、都是向量。

LSTM的关键，就是怎样控制长期状态c。在这里，LSTM的思路是使用三个控制开关。第一个开关，负责控制继续保存长期状态c；第二个开关，负责控制把即时状态输入到长期状态c；第三个开关，负责控制是否把长期状态c作为当前的LSTM的输出。三个开关的作用如下图所示：

接下来，我们要描述一下，输出h和单元状态c的具体计算方法。

长短时记忆网络的前向计算

前面描述的开关是怎样在算法中实现的呢？这就用到了门（gate）的概念。门实际上就是一层全连接层，它的输入是一个向量，输出是一个0到1之间的实数向量。假设W是门的权重向量，是偏置项，那么门可以表示为：

门的使用，就是用门的输出向量按元素乘以我们需要控制的那个向量。因为门的输出是0到1之间的实数向量，那么，当门输出为0时，任何向量与之相乘都会得到0向量，这就相当于啥都不能通过；输出为1时，任何向量与之相乘都不会有任何改变，这就相当于啥都可以通过。因为（也就是sigmoid函数）的值域是(0,1)，所以门的状态都是半开半闭的。

LSTM用两个门来控制单元状态c的内容，一个是遗忘门（forget gate），它决定了上一时刻的单元状态有多少保留到当前时刻；另一个是输入门（input gate），它决定了当前时刻网络的输入有多少保存到单元状态。LSTM用输出门（output gate）来控制单元状态有多少输出到LSTM的当前输出值。

我们先来看一下遗忘门：

式

上式中，是遗忘门的权重矩阵，表示把两个向量连接成一个更长的向量，是遗忘门的偏置项，是sigmoid函数。如果输入的维度是，隐藏层的维度是，单元状态的维度是（通常），则遗忘门的权重矩阵维度是。事实上，权重矩阵都是两个矩阵拼接而成的：一个是，它对应着输入项，其维度为；一个是，它对应着输入项，其维度为。可以写为：

下图显示了遗忘门的计算：

接下来看看输入门：

式

上式中，是输入门的权重矩阵，是输入门的偏置项。下图表示了输入门的计算：

接下来，我们计算用于描述当前输入的单元状态，它是根据上一次的输出和本次输入来计算的：

式

下图是的计算：

现在，我们计算当前时刻的单元状态。它是由上一次的单元状态按元素乘以遗忘门，再用当前输入的单元状态按元素乘以输入门，再将两个积加和产生的：

式

符号表示按元素乘。下图是的计算：

这样，我们就把LSTM关于当前的记忆和长期的记忆组合在一起，形成了新的单元状态。由于遗忘门的控制，它可以保存很久很久之前的信息，由于输入门的控制，它又可以避免当前无关紧要的内容进入记忆。下面，我们要看看输出门，它控制了长期记忆对当前输出的影响：

式

下图表示输出门的计算：

LSTM最终的输出，是由输出门和单元状态共同确定的：

式

下图表示LSTM最终输出的计算：

式1到式6就是LSTM前向计算的全部公式。至此，我们就把LSTM前向计算讲完了。

长短时记忆网络的训练

熟悉我们这个系列文章的同学都清楚，训练部分往往比前向计算部分复杂多了。LSTM的前向计算都这么复杂，那么，可想而知，它的训练算法一定是非常非常复杂的。现在只有做几次深呼吸，再一头扎进公式海洋吧。

LSTM训练算法框架

LSTM的训练算法仍然是反向传播算法，对于这个算法，我们已经非常熟悉了。主要有下面三个步骤：

前向计算每个神经元的输出值，对于LSTM来说，即、、、、五个向量的值。计算方法已经在上一节中描述过了。
反向计算每个神经元的误差项值。与循环神经网络一样，LSTM误差项的反向传播也是包括两个方向：一个是沿时间的反向传播，即从当前t时刻开始，计算每个时刻的误差项；一个是将误差项向上一层传播。
根据相应的误差项，计算每个权重的梯度。

关于公式和符号的说明

首先，我们对推导中用到的一些公式、符号做一下必要的说明。

接下来的推导中，我们设定gate的激活函数为sigmoid函数，输出的激活函数为tanh函数。他们的导数分别为：

从上面可以看出，sigmoid和tanh函数的导数都是原函数的函数。这样，我们一旦计算原函数的值，就可以用它来计算出导数的值。

LSTM需要学习的参数共有8组，分别是：遗忘门的权重矩阵和偏置项、输入门的权重矩阵和偏置项、输出门的权重矩阵和偏置项，以及计算单元状态的权重矩阵和偏置项。因为权重矩阵的两部分在反向传播中使用不同的公式，因此在后续的推导中，权重矩阵、、、都将被写为分开的两个矩阵：、、、、、、、。

我们解释一下按元素乘符号。当作用于两个向量时，运算如下：

当作用于一个向量和一个矩阵时，运算如下：

当作用于两个矩阵时，两个矩阵对应位置的元素相乘。按元素乘可以在某些情况下简化矩阵和向量运算。例如，当一个对角矩阵右乘一个矩阵时，相当于用对角矩阵的对角线组成的向量按元素乘那个矩阵：

当一个行向量右乘一个对角矩阵时，相当于这个行向量按元素乘那个矩阵对角线组成的向量：

上面这两点，在我们后续推导中会多次用到。

在t时刻，LSTM的输出值为。我们定义t时刻的误差项为：

注意，和前面几篇文章不同，我们这里假设误差项是损失函数对输出值的导数，而不是对加权输入的导数。因为LSTM有四个加权输入，分别对应、、、，我们希望往上一层传递一个误差项而不是四个。但我们仍然需要定义出这四个加权输入，以及他们对应的误差项。

误差项沿时间的反向传递

沿时间反向传递误差项，就是要计算出t-1时刻的误差项。

我们知道，是一个Jacobian矩阵。如果隐藏层h的维度是N的话，那么它就是一个矩阵。为了求出它，我们列出的计算公式，即前面的式6和式4：

显然，、、、都是的函数，那么，利用全导数公式可得：

式

下面，我们要把式7中的每个偏导数都求出来。根据式6，我们可以求出：

根据式4，我们可以求出：

因为：

我们很容易得出：

将上述偏导数带入到式7，我们得到：

式

根据、、、的定义，可知：

式式式式

式8到式12就是将误差沿时间反向传播一个时刻的公式。有了它，我们可以写出将误差项向前传递到任意k时刻的公式：

式

将误差项传递到上一层

我们假设当前为第l层，定义l-1层的误差项是误差函数对l-1层加权输入的导数，即：

本次LSTM的输入由下面的公式计算：

上式中，表示第l-1层的激活函数。

因为、、、都是的函数，又是的函数，因此，要求出E对的导数，就需要使用全导数公式：

式

式14就是将误差传递到上一层的公式。

权重梯度的计算

对于、、、的权重梯度，我们知道它的梯度是各个时刻梯度之和（证明过程请参考文章零基础入门深度学习(5) - 循环神经网络），我们首先求出它们在t时刻的梯度，然后再求出他们最终的梯度。

我们已经求得了误差项、、、，很容易求出t时刻的、的、的、的：

将各个时刻的梯度加在一起，就能得到最终的梯度：

对于偏置项、、、的梯度，也是将各个时刻的梯度加在一起。下面是各个时刻的偏置项梯度：

下面是最终的偏置项梯度，即将各个时刻的偏置项梯度加在一起：

对于、、、的权重梯度，只需要根据相应的误差项直接计算即可：

以上就是LSTM的训练算法的全部公式。因为这里面存在很多重复的模式，仔细看看，会发觉并不是太复杂。

当然，LSTM存在着相当多的变体，读者可以在互联网上找到很多资料。因为大家已经熟悉了基本LSTM的算法，因此理解这些变体比较容易，因此本文就不再赘述了。

长短时记忆网络的实现

完整代码请参考GitHub: https://github.com/hanbt/learn_dl/blob/master/lstm.py (python2.7)

在下面的实现中，LSTMLayer的参数包括输入维度、输出维度、隐藏层维度，单元状态维度等于隐藏层维度。gate的激活函数为sigmoid函数，输出的激活函数为tanh。

激活函数的实现

我们先实现两个激活函数：sigmoid和tanh。

   
   
   
   
    
    
    
    class SigmoidActivator(object):
    
    
    
        def forward(self, weighted_input):
    
    
    
            return 1.0 / (1.0 + np.exp(-weighted_input))
    
    
    
    
    
    
    
        def backward(self, output):
    
    
    
            return output * (1 - output)
    
    
    
    
    
    
    
    
    
    
    
    class TanhActivator(object):
    
    
    
        def forward(self, weighted_input):
    
    
    
            return 2.0 / (1.0 + np.exp(-2 * weighted_input)) - 1.0
    
    
    
    
    
    
    
        def backward(self, output):
    
    
    
            return 1 - output * output

LSTM初始化

和前两篇文章代码架构一样，我们把LSTM的实现放在LstmLayer类中。

根据LSTM前向计算和方向传播算法，我们需要初始化一系列矩阵和向量。这些矩阵和向量有两类用途，一类是用于保存模型参数，例如、、、、、、、；另一类是保存各种中间计算结果，以便于反向传播算法使用，它们包括、、、、、、、、、、，以及各个权重对应的梯度。

在构造函数的初始化中，只初始化了与forward计算相关的变量，与backward相关的变量没有初始化。这是因为构造LSTM对象的时候，我们还不知道它未来是用于训练（既有forward又有backward）还是推理（只有forward）。

   
   
   
   
    
    
    
    class LstmLayer(object):
    
    
    
        def __init__(self, input_width, state_width, 
    
    
    
                     learning_rate):
    
    
    
            self.input_width = input_width
    
    
    
            self.state_width = state_width
    
    
    
            self.learning_rate = learning_rate
    
    
    
            # 门的激活函数
    
    
    
            self.gate_activator = SigmoidActivator()
    
    
    
            # 输出的激活函数
    
    
    
            self.output_activator = TanhActivator()
    
    
    
            # 当前时刻初始化为t0
    
    
    
            self.times = 0       
    
    
    
            # 各个时刻的单元状态向量c
    
    
    
            self.c_list = self.init_state_vec()
    
    
    
            # 各个时刻的输出向量h
    
    
    
            self.h_list = self.init_state_vec()
    
    
    
            # 各个时刻的遗忘门f
    
    
    
            self.f_list = self.init_state_vec()
    
    
    
            # 各个时刻的输入门i
    
    
    
            self.i_list = self.init_state_vec()
    
    
    
            # 各个时刻的输出门o
    
    
    
            self.o_list = self.init_state_vec()
    
    
    
            # 各个时刻的即时状态c~
    
    
    
            self.ct_list = self.init_state_vec()
    
    
    
            # 遗忘门权重矩阵Wfh, Wfx, 偏置项bf
    
    
    
            self.Wfh, self.Wfx, self.bf = (
    
    
    
                self.init_weight_mat())
    
    
    
            # 输入门权重矩阵Wfh, Wfx, 偏置项bf
    
    
    
            self.Wih, self.Wix, self.bi = (
    
    
    
                self.init_weight_mat())
    
    
    
            # 输出门权重矩阵Wfh, Wfx, 偏置项bf
    
    
    
            self.Woh, self.Wox, self.bo = (
    
    
    
                self.init_weight_mat())
    
    
    
            # 单元状态权重矩阵Wfh, Wfx, 偏置项bf
    
    
    
            self.Wch, self.Wcx, self.bc = (
    
    
    
                self.init_weight_mat())
    
    
    
    
    
    
    
        def init_state_vec(self):
    
    
    
            '''
    
    
    
            初始化保存状态的向量
    
    
    
            '''
    
    
    
            state_vec_list = []
    
    
    
            state_vec_list.append(np.zeros(
    
    
    
                (self.state_width, 1)))
    
    
    
            return state_vec_list
    
    
    
    
    
    
    
        def init_weight_mat(self):
    
    
    
            '''
    
    
    
            初始化权重矩阵
    
    
    
            '''
    
    
    
            Wh = np.random.uniform(-1e-4, 1e-4,
    
    
    
                (self.state_width, self.state_width))
    
    
    
            Wx = np.random.uniform(-1e-4, 1e-4,
    
    
    
                (self.state_width, self.input_width))
    
    
    
            b = np.zeros((self.state_width, 1))
    
    
    
            return Wh, Wx, b

前向计算的实现

forward方法实现了LSTM的前向计算：

   
   
   
   
    
    
    
        def forward(self, x):
    
    
    
            '''
    
    
    
            根据式1-式6进行前向计算
    
    
    
            '''
    
    
    
            self.times += 1
    
    
    
            # 遗忘门
    
    
    
            fg = self.calc_gate(x, self.Wfx, self.Wfh, 
    
    
    
                self.bf, self.gate_activator)
    
    
    
            self.f_list.append(fg)
    
    
    
            # 输入门
    
    
    
            ig = self.calc_gate(x, self.Wix, self.Wih,
    
    
    
                self.bi, self.gate_activator)
    
    
    
            self.i_list.append(ig)
    
    
    
            # 输出门
    
    
    
            og = self.calc_gate(x, self.Wox, self.Woh,
    
    
    
                self.bo, self.gate_activator)
    
    
    
            self.o_list.append(og)
    
    
    
            # 即时状态
    
    
    
            ct = self.calc_gate(x, self.Wcx, self.Wch,
    
    
    
                self.bc, self.output_activator)
    
    
    
            self.ct_list.append(ct)
    
    
    
            # 单元状态
    
    
    
            c = fg * self.c_list[self.times - 1] + ig * ct
    
    
    
            self.c_list.append(c)
    
    
    
            # 输出
    
    
    
            h = og * self.output_activator.forward(c)
    
    
    
            self.h_list.append(h)
    
    
    
    
    
    
    
        def calc_gate(self, x, Wx, Wh, b, activator):
    
    
    
            '''
    
    
    
            计算门
    
    
    
            '''
    
    
    
            h = self.h_list[self.times - 1] # 上次的LSTM输出
    
    
    
            net = np.dot(Wh, h) + np.dot(Wx, x) + b
    
    
    
            gate = activator.forward(net)
    
    
    
            return gate

从上面的代码我们可以看到，门的计算都是相同的算法，而门和的计算仅仅是激活函数不同。因此我们提出了calc_gate方法，这样减少了很多重复代码。

反向传播算法的实现

backward方法实现了LSTM的反向传播算法。需要注意的是，与backword相关的内部状态变量是在调用backward方法之后才初始化的。这种延迟初始化的一个好处是，如果LSTM只是用来推理，那么就不需要初始化这些变量，节省了很多内存。

   
   
   
   
    
    
    
        def backward(self, x, delta_h, activator):
    
    
    
            '''
    
    
    
            实现LSTM训练算法
    
    
    
            '''
    
    
    
            self.calc_delta(delta_h, activator)
    
    
    
            self.calc_gradient(x)

算法主要分成两个部分，一部分使计算误差项：

   
   
   
   
    
    
    
        def calc_delta(self, delta_h, activator):
    
    
    
            # 初始化各个时刻的误差项
    
    
    
            self.delta_h_list = self.init_delta()  # 输出误差项
    
    
    
            self.delta_o_list = self.init_delta()  # 输出门误差项
    
    
    
            self.delta_i_list = self.init_delta()  # 输入门误差项
    
    
    
            self.delta_f_list = self.init_delta()  # 遗忘门误差项
    
    
    
            self.delta_ct_list = self.init_delta() # 即时输出误差项
    
    
    
    
    
    
    
            # 保存从上一层传递下来的当前时刻的误差项
    
    
    
            self.delta_h_list[-1] = delta_h
    
    
    
    
    
    
    
            # 迭代计算每个时刻的误差项
    
    
    
            for k in range(self.times, 0, -1):
    
    
    
                self.calc_delta_k(k)
    
    
    
    
    
    
    
        def init_delta(self):
    
    
    
            '''
    
    
    
            初始化误差项
    
    
    
            '''
    
    
    
            delta_list = []
    
    
    
            for i in range(self.times + 1):
    
    
    
                delta_list.append(np.zeros(
    
    
    
                    (self.state_width, 1)))
    
    
    
            return delta_list
    
    
    
    
    
    
    
        def calc_delta_k(self, k):
    
    
    
            '''
    
    
    
            根据k时刻的delta_h，计算k时刻的delta_f、
    
    
    
            delta_i、delta_o、delta_ct，以及k-1时刻的delta_h
    
    
    
            '''
    
    
    
            # 获得k时刻前向计算的值
    
    
    
            ig = self.i_list[k]
    
    
    
            og = self.o_list[k]
    
    
    
            fg = self.f_list[k]
    
    
    
            ct = self.ct_list[k]
    
    
    
            c = self.c_list[k]
    
    
    
            c_prev = self.c_list[k-1]
    
    
    
            tanh_c = self.output_activator.forward(c)
    
    
    
            delta_k = self.delta_h_list[k]
    
    
    
    
    
    
    
            # 根据式9计算delta_o
    
    
    
            delta_o = (delta_k * tanh_c * 
    
    
    
                self.gate_activator.backward(og))
    
    
    
            delta_f = (delta_k * og * 
    
    
    
                (1 - tanh_c * tanh_c) * c_prev *
    
    
    
                self.gate_activator.backward(fg))
    
    
    
            delta_i = (delta_k * og * 
    
    
    
                (1 - tanh_c * tanh_c) * ct *
    
    
    
                self.gate_activator.backward(ig))
    
    
    
            delta_ct = (delta_k * og * 
    
    
    
                (1 - tanh_c * tanh_c) * ig *
    
    
    
                self.output_activator.backward(ct))
    
    
    
            delta_h_prev = (
    
    
    
                    np.dot(delta_o.transpose(), self.Woh) +
    
    
    
                    np.dot(delta_i.transpose(), self.Wih) +
    
    
    
                    np.dot(delta_f.transpose(), self.Wfh) +
    
    
    
                    np.dot(delta_ct.transpose(), self.Wch)
    
    
    
                ).transpose()
    
    
    
    
    
    
    
            # 保存全部delta值
    
    
    
            self.delta_h_list[k-1] = delta_h_prev
    
    
    
            self.delta_f_list[k] = delta_f
    
    
    
            self.delta_i_list[k] = delta_i
    
    
    
            self.delta_o_list[k] = delta_o
    
    
    
            self.delta_ct_list[k] = delta_ct

另一部分是计算梯度：

   
   
   
   
    
    
    
        def calc_gradient(self, x):
    
    
    
            # 初始化遗忘门权重梯度矩阵和偏置项
    
    
    
            self.Wfh_grad, self.Wfx_grad, self.bf_grad = (
    
    
    
                self.init_weight_gradient_mat())
    
    
    
            # 初始化输入门权重梯度矩阵和偏置项
    
    
    
            self.Wih_grad, self.Wix_grad, self.bi_grad = (
    
    
    
                self.init_weight_gradient_mat())
    
    
    
            # 初始化输出门权重梯度矩阵和偏置项
    
    
    
            self.Woh_grad, self.Wox_grad, self.bo_grad = (
    
    
    
                self.init_weight_gradient_mat())
    
    
    
            # 初始化单元状态权重梯度矩阵和偏置项
    
    
    
            self.Wch_grad, self.Wcx_grad, self.bc_grad = (
    
    
    
                self.init_weight_gradient_mat())
    
    
    
    
    
    
    
           # 计算对上一次输出h的权重梯度
    
    
    
            for t in range(self.times, 0, -1):
    
    
    
                # 计算各个时刻的梯度
    
    
    
                (Wfh_grad, bf_grad,
    
    
    
                Wih_grad, bi_grad,
    
    
    
                Woh_grad, bo_grad,
    
    
    
                Wch_grad, bc_grad) = (
    
    
    
                    self.calc_gradient_t(t))
    
    
    
                # 实际梯度是各时刻梯度之和
    
    
    
                self.Wfh_grad += Wfh_grad
    
    
    
                self.bf_grad += bf_grad
    
    
    
                self.Wih_grad += Wih_grad
    
    
    
                self.bi_grad += bi_grad
    
    
    
                self.Woh_grad += Woh_grad
    
    
    
                self.bo_grad += bo_grad
    
    
    
                self.Wch_grad += Wch_grad
    
    
    
                self.bc_grad += bc_grad
    
    
    
                print '-----%d-----' % t
    
    
    
                print Wfh_grad
    
    
    
                print self.Wfh_grad
    
    
    
    
    
    
    
            # 计算对本次输入x的权重梯度
    
    
    
            xt = x.transpose()
    
    
    
            self.Wfx_grad = np.dot(self.delta_f_list[-1], xt)
    
    
    
            self.Wix_grad = np.dot(self.delta_i_list[-1], xt)
    
    
    
            self.Wox_grad = np.dot(self.delta_o_list[-1], xt)
    
    
    
            self.Wcx_grad = np.dot(self.delta_ct_list[-1], xt)
    
    
    
    
    
    
    
        def init_weight_gradient_mat(self):
    
    
    
            '''
    
    
    
            初始化权重矩阵
    
    
    
            '''
    
    
    
            Wh_grad = np.zeros((self.state_width,
    
    
    
                self.state_width))
    
    
    
            Wx_grad = np.zeros((self.state_width,
    
    
    
                self.input_width))
    
    
    
            b_grad = np.zeros((self.state_width, 1))
    
    
    
            return Wh_grad, Wx_grad, b_grad
    
    
    
    
    
    
    
        def calc_gradient_t(self, t):
    
    
    
            '''
    
    
    
            计算每个时刻t权重的梯度
    
    
    
            '''
    
    
    
            h_prev = self.h_list[t-1].transpose()
    
    
    
            Wfh_grad = np.dot(self.delta_f_list[t], h_prev)
    
    
    
            bf_grad = self.delta_f_list[t]
    
    
    
            Wih_grad = np.dot(self.delta_i_list[t], h_prev)
    
    
    
            bi_grad = self.delta_f_list[t]
    
    
    
            Woh_grad = np.dot(self.delta_o_list[t], h_prev)
    
    
    
            bo_grad = self.delta_f_list[t]
    
    
    
            Wch_grad = np.dot(self.delta_ct_list[t], h_prev)
    
    
    
            bc_grad = self.delta_ct_list[t]
    
    
    
            return Wfh_grad, bf_grad, Wih_grad, bi_grad, \
    
    
    
                   Woh_grad, bo_grad, Wch_grad, bc_grad

梯度下降算法的实现

下面是用梯度下降算法来更新权重：

   
   
   
   
    
    
    
        def update(self):
    
    
    
            '''
    
    
    
            按照梯度下降，更新权重
    
    
    
            '''
    
    
    
            self.Wfh -= self.learning_rate * self.Whf_grad
    
    
    
            self.Wfx -= self.learning_rate * self.Whx_grad
    
    
    
            self.bf -= self.learning_rate * self.bf_grad
    
    
    
            self.Wih -= self.learning_rate * self.Whi_grad
    
    
    
            self.Wix -= self.learning_rate * self.Whi_grad
    
    
    
            self.bi -= self.learning_rate * self.bi_grad
    
    
    
            self.Woh -= self.learning_rate * self.Wof_grad
    
    
    
            self.Wox -= self.learning_rate * self.Wox_grad
    
    
    
            self.bo -= self.learning_rate * self.bo_grad
    
    
    
            self.Wch -= self.learning_rate * self.Wcf_grad
    
    
    
            self.Wcx -= self.learning_rate * self.Wcx_grad
    
    
    
            self.bc -= self.learning_rate * self.bc_grad

梯度检查的实现

和RecurrentLayer一样，为了支持梯度检查，我们需要支持重置内部状态：

   
   
   
   
    
    
    
        def reset_state(self):
    
    
    
            # 当前时刻初始化为t0
    
    
    
            self.times = 0       
    
    
    
            # 各个时刻的单元状态向量c
    
    
    
            self.c_list = self.init_state_vec()
    
    
    
            # 各个时刻的输出向量h
    
    
    
            self.h_list = self.init_state_vec()
    
    
    
            # 各个时刻的遗忘门f
    
    
    
            self.f_list = self.init_state_vec()
    
    
    
            # 各个时刻的输入门i
    
    
    
            self.i_list = self.init_state_vec()
    
    
    
            # 各个时刻的输出门o
    
    
    
            self.o_list = self.init_state_vec()
    
    
    
            # 各个时刻的即时状态c~
    
    
    
            self.ct_list = self.init_state_vec()

最后，是梯度检查的代码：

   
   
   
   
    
    
    
    def data_set():
    
    
    
        x = [np.array([[1], [2], [3]]),
    
    
    
             np.array([[2], [3], [4]])]
    
    
    
        d = np.array([[1], [2]])
    
    
    
        return x, d
    
    
    
    
    
    
    
    def gradient_check():
    
    
    
        '''
    
    
    
        梯度检查
    
    
    
        '''
    
    
    
        # 设计一个误差函数，取所有节点输出项之和
    
    
    
        error_function = lambda o: o.sum()
    
    
    
    
    
    
    
        lstm = LstmLayer(3, 2, 1e-3)
    
    
    
    
    
    
    
        # 计算forward值
    
    
    
        x, d = data_set()
    
    
    
        lstm.forward(x[0])
    
    
    
        lstm.forward(x[1])
    
    
    
    
    
    
    
        # 求取sensitivity map
    
    
    
        sensitivity_array = np.ones(lstm.h_list[-1].shape,
    
    
    
                                    dtype=np.float64)
    
    
    
        # 计算梯度
    
    
    
        lstm.backward(x[1], sensitivity_array, IdentityActivator())
    
    
    
    
    
    
    
        # 检查梯度
    
    
    
        epsilon = 10e-4
    
    
    
        for i in range(lstm.Wfh.shape[0]):
    
    
    
            for j in range(lstm.Wfh.shape[1]):
    
    
    
                lstm.Wfh[i,j] += epsilon
    
    
    
                lstm.reset_state()
    
    
    
                lstm.forward(x[0])
    
    
    
                lstm.forward(x[1])
    
    
    
                err1 = error_function(lstm.h_list[-1])
    
    
    
                lstm.Wfh[i,j] -= 2*epsilon
    
    
    
                lstm.reset_state()
    
    
    
                lstm.forward(x[0])
    
    
    
                lstm.forward(x[1])
    
    
    
                err2 = error_function(lstm.h_list[-1])
    
    
    
                expect_grad = (err1 - err2) / (2 * epsilon)
    
    
    
                lstm.Wfh[i,j] += epsilon
    
    
    
                print 'weights(%d,%d): expected - actural %.4e - %.4e' % (
    
    
    
                    i, j, expect_grad, lstm.Wfh_grad[i,j])
    
    
    
        return lstm

我们只对做了检查，读者可以自行增加对其他梯度的检查。下面是某次梯度检查的结果：

GRU

前面我们讲了一种普通的LSTM，事实上LSTM存在很多变体，许多论文中的LSTM都或多或少的不太一样。在众多的LSTM变体中，GRU (Gated Recurrent Unit)也许是最成功的一种。它对LSTM做了很多简化，同时却保持着和LSTM相同的效果。因此，GRU最近变得越来越流行。

GRU对LSTM做了两个大改动：

将输入门、遗忘门、输出门变为两个门：更新门（Update Gate）和重置门（Reset Gate）。
将单元状态与输出合并为一个状态：。

GRU的前向计算公式为：

下图是GRU的示意图：

GRU的训练算法比LSTM简单一些，留给读者自行推导，本文就不再赘述了。

小结

至此，LSTM——也许是结构最复杂的一类神经网络——就讲完了，相信拿下前几篇文章的读者们搞定这篇文章也不在话下吧！现在我们已经了解循环神经网络和它最流行的变体——LSTM，它们都可以用来处理序列。但是，有时候仅仅拥有处理序列的能力还不够，还需要处理比序列更为复杂的结构（比如树结构），这时候就需要用到另外一类网络：递归神经网络(Recursive Neural Network)，巧合的是，它的缩写也是RNN。在下一篇文章中，我们将介绍递归神经网络和它的训练算法。现在，漫长的烧脑暂告一段落，休息一下吧:)

参考资料

CS224d: Deep Learning for Natural Language Processing
Understanding LSTM Networks
LSTM Forward and Backward Pass

你可能感兴趣的:(深度学习)

一文搞懂 Cursor 内部工作原理~ zz_jesse
介绍了Cursor，一个结合了AI技术的代码编辑器，它通过深度学习和语义索引的方式，提升了开发者的工作效率。Cursor通过与VSCode相似的界面和功能，以及自己的AI特性，实现了代码的智能化编辑和错误检查。译文从这开始～～你可能已经看到新闻：OpenAI正以高达30亿美元的价格收购Windsurf！与此同时，Cursor的母公司Anysphere也正在以90亿美元估值融资9亿美元！这对于代码生
目标检测YOLO实战应用案例100讲-基于深度学习的自动驾驶目标检测算法研究（续）林聪木目标检测 YOLO 深度学习
目录基于双蓝图卷积的轻量化自动驾驶目标检测算法5.1引言5.2DarkNet53网络冗余性分析5.3双蓝图卷积网络5.4实验结果及分析基于深度学习的自动驾驶目标检测算法研究与应用传统的目标检测算法目标检测基线算法性能对比与选择相关理论和算法基础2.1引言2.2人工神经网络2.3FCOS目标检测算法2.4复杂交通场景下的目标检测难点与FCOS改进方案基于FCOS的目标检测算法改进3.1引言3.2Re
AI人工智能遇上TensorFlow：技术融合新趋势 AI大模型应用之禅人工智能 tensorflow python ai
AI人工智能遇上TensorFlow：技术融合新趋势关键词：人工智能、TensorFlow、深度学习、神经网络、机器学习、技术融合、AI开发摘要：本文深入探讨了人工智能技术与TensorFlow框架的融合发展趋势。我们将从基础概念出发，详细分析TensorFlow在AI领域的核心优势，包括其架构设计、算法实现和实际应用。文章包含丰富的技术细节，如神经网络原理、TensorFlow核心算法实现、数学
深度学习核心知识简介和模型调参研术工坊深度学习知识和技巧深度学习人工智能 python
深度学习模型调优就像调制一道复杂的菜肴，需要掌握多种"调料"的用法。本文将为您详解这些关键"调料"，帮助您烹饪出高性能的模型。###核心参数及其影响####1️⃣Loss（损失函数）**基本介绍**：衡量模型预测与真实值差距的指标，是模型优化的指南针。**生活类比**：想象你在教小孩认识动物：-**完美情况**：小孩看到猫说"猫"，看到狗说"狗"→Loss=0-**有错误**：小孩看到猫说"狗"→
【小白入门必看】一文读懂深度学习计算机视觉技术及学习路线
一、什么是计算机视觉？计算机视觉，其实就是教机器怎么像我们人一样，用摄像头看看周围的世界，然后理解它。比如说，它能认出这是个苹果，或者那边有辆车。除此之外，还能把拍到的照片或者视频转换成有用的信息，帮我们做决定。整个过程就是为了让机器能看懂图像，然后根据这些图像来做出聪明的选择。二、计算机视觉实现起来难吗？人类依赖视觉，找辆汽车轻而易举，毕竟汽车那么大，一眼就能看出来，所以常误以为计算机视觉简单，
2025年跑深度学习电脑配置-深度学习显卡推荐 OpenCV图像识别人工智能深度学习智能电视人工智能
2025年跑深度学习任务，电脑配置需从处理器、内存、显卡、存储、散热与电源、扩展性、网络连接等多方面综合考量，以下是具体分析：处理器（CPU）多核高性能：深度学习涉及大量并行计算任务，需要处理器具备强大的多核处理能力。英特尔至强Scalable处理器（SapphireRapids或后续架构）和AMDEPYC处理器（Genoa或后续架构）是不错的选择。英特尔至强Scalable处理器提供卓越的单核性
【深度学习第六期深度学习中的归一化与正则化技术：原理、实践与应用】码上有前 Python 深度学习 Pytorch 深度学习人工智能 cnn
作者：“码上有前”文章简介：深度学习欢迎小伙伴们点赞、收藏⭐、留言深度学习中的归一化与正则化技术：原理、实践与应用摘要：本文深入探讨深度学习中批量归一化（BN）、层归一化（LN）、标准化以及正则化等关键技术。详细阐述它们的基本原理，包括如何调整数据分布、控制模型复杂度等；通过丰富的实例和对应代码，展示在不同网络架构中这些技术的具体实现方式，以及对模型训练和性能的影响；同时，对比分析各项技术的特点和
深度神经网络课程设计：从理论到实践 Vita Libre
本文还有配套的精品资源，点击获取简介：深度神经网络是深度学习预测的核心技术，本课程设计项目旨在教授学生如何构建和应用深度神经网络进行各种预测任务，包括图像识别和自然语言处理。学生将通过源代码示例学习从网络架构设计、数据预处理到模型训练与评估的完整流程，并掌握深度学习的基本概念、组件及技巧。1.深度神经网络定义和在深度学习预测中的角色深度神经网络（DeepNeuralNetworks,DNNs）是深
深度学习基础与应用：从理论到实战创新工场
本文还有配套的精品资源，点击获取简介：深度学习是人工智能的核心分支，通过模拟人脑神经网络处理大量数据以执行复杂任务。Python因其简洁性和强大的库支持成为深度学习研究的首选语言。本文概述了深度学习基础概念、核心算法、Python框架，并假设了一个包含教程、示例代码、数据集、交互式学习环境、性能评估指标和进阶主题的“deep-learning-study-main”压缩包内容，旨在帮助学习者深入理
大模型与智能体：螺旋共生，绘就智能新蓝图东锋17 人工智能大模型智能体人工智能
大模型与智能体：螺旋共生，绘就智能新蓝图在人工智能的前沿领域，大模型与智能体宛如两颗璀璨的星辰，以一种精妙的螺旋共生关系，重塑着智能世界的格局，深刻影响着我们生活与工作的方方面面。大模型：构筑智能大厦的基石大语言模型，像广为人知的GPT-4、通义千问等，凭借在海量数据中深度学习的锤炼，展现出卓越的语言理解与生成天赋。它们就像知识渊博的学者，能熟练应对各类自然语言任务。无论是洋洋洒洒的文章创作，还是
深度学习之迁移学习路溪非溪人工智能迁移学习机器学习
认识迁移学习迁移学习（TransferLearning）是机器学习中的一种重要技术，其核心思想是将在一个任务上学习到的知识（模型参数、特征表示等），迁移应用到另一个相关但不同的任务中，从而提升新任务的学习效率和性能，尤其是在新任务数据有限的情况下。一、迁移学习的核心动机传统机器学习通常要求为每个新任务收集大量标注数据并从头训练模型，但现实中面临以下挑战：数据稀缺：例如医疗影像分析（罕见疾病样本少）
【深度学习-Day 35】实战图像数据增强：用PyTorch和TensorFlow扩充你的数据集吴师兄大模型深度学习入门到精通深度学习 pytorch tensorflow 人工智能 python 大模型 LLM
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
【深度学习】【入门】Linear和flatten 学习中的阿陈深度学习人工智能
1.Linear1.Linear的概念Linear层，通常也被称为全连接层，是神经网络中一种经典且基础的层结构。它的核心特点是每一个神经元都与上一层的所有神经元相连接，这种全连接的方式使得信息能够在层与层之间充分传递和整合2.Linear层的作用Linear层在神经网络中主要承担着特征整合与输出映射的重任。在经过卷积、池化等层提取出数据的局部特征后，Linear层能够将这些分散的局部特征进行整合，
魔都AI医疗哪家强？全景揭秘科技创新与未来钱景！
引言上海作为中国科技创新的先锋城市，正在AI医疗领域崭露头角。根据2024年12月的数据，上海拥有34家专注于AI药物研发的公司，占全国预临床研究的60%和临床试验的47%。这些公司利用深度学习、大语言模型（LLM）和计算机视觉等技术，革新药物发现、医疗影像分析和数据治理，推动医疗行业的智能化转型。从全球首个人工智能医院“AgentHospital”到AI驱动的诊断系统，上海的AI医疗生态正在重塑
深度学习基础2 TY-2025 深度学习深度学习人工智能
5.张量索引操作（1）索引操作行列索引列表索引print(data[[0,2],[1,2]])#返回(0,1)，(2,2)两个位置的元素print(data[[[0],[1]],[1,2]])#返回0，1行的1，2列共4个元素范围索引print(data[:3,:2])#前3行前2列数据print(data[2:,:2])#第2行到最后的前2列数据布尔索引tensor([[0,7,6,5,9],[
Python 领域 vllm 安装与环境配置全攻略 Python编程之道 Python编程之道 python 开发语言 ai
Python领域vllm安装与环境配置全攻略关键词：Python、vllm、安装、环境配置、深度学习摘要：本文围绕Python领域中vllm的安装与环境配置展开，全面且深入地介绍了vllm的相关知识。首先阐述了背景信息，包括目的范围、预期读者、文档结构和术语表。接着详细讲解了vllm的核心概念与联系，分析其核心算法原理并给出具体操作步骤，还引入了相关数学模型和公式进行说明。通过项目实战，提供代码实
语义分割模型的轻量化与准确率提升研究 pk_xz123456 仿真模型深度学习算法 transformer 深度学习人工智能算法数据结构
语义分割模型的轻量化与准确率提升研究1.引言语义分割是计算机视觉领域的核心任务之一，它要求模型为图像中的每个像素分配一个类别标签。随着深度学习的发展，语义分割模型在多个领域得到了广泛应用，如自动驾驶、医学影像分析、遥感图像解译等。然而，现有的语义分割模型往往面临两个主要挑战：模型复杂度高导致难以部署在资源受限的设备上，以及准确率仍有提升空间以满足实际应用需求。本文将从模型轻量化和准确率提升两个角度
AIGC领域AI作画：在数字雕塑中的应用实践 AI原生应用开发 AI 原生应用开发 AIGC AI作画 ai
AIGC领域AI作画：在数字雕塑中的应用实践关键词：AIGC、AI作画、数字雕塑、生成对抗网络、3D建模、艺术创作、深度学习摘要：本文深入探讨了AIGC(人工智能生成内容)技术在数字雕塑领域的创新应用。我们将从技术原理、算法实现到实际案例，全面解析AI如何赋能传统数字雕塑创作流程。文章首先介绍AIGC在艺术创作中的背景和发展现状，然后详细讲解核心算法原理和数学模型，接着通过实际项目案例展示AI作画
Python深度学习实践：建立端到端的自动驾驶系统 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：建立端到端的自动驾驶系统1.背景介绍自动驾驶系统是当今科技领域最具挑战性和前景的应用之一。它融合了计算机视觉、深度学习、规划与控制等多个领域的先进技术,旨在实现车辆的自主感知、决策和操控。随着人工智能技术的不断发展,越来越多的公司和研究机构投入了大量资源来开发自动驾驶系统。Python作为一种高效、易学且开源的编程语言,在这一领域扮演着重要角色。本文将探讨如何利用Pyth
Python 爬虫实战：Selenium 爬取豆瓣相册（图片分类 + 标签提取）西攻城狮北 python 爬虫 selenium
一、引言豆瓣作为国内知名的社区平台，其相册功能允许用户上传和分享各类图片，涵盖电影海报、音乐专辑、生活记录等多个领域。这些图片数据对于了解用户兴趣、进行内容推荐和市场调研具有重要价值。然而，豆瓣对直接的数据访问设定了诸多限制，因此，本文将介绍如何通过Python爬虫技术结合Selenium自动化工具，合法高效地爬取豆瓣相册图片，并运用深度学习技术实现图片分类和标签提取。二、开发环境搭建（一）编程语
【深度学习】大模型GLM-4-9B Chat ，微调与部署(3) TensorRT-LLM、TensorRT量化加速、Triton部署 XD742971636 深度学习机器学习深度学习人工智能
文章目录获取TensorRT-LLM代码：构建docker镜像并安装TensorRT-LLM：运行docker镜像：安装依赖魔改下部分package代码：量化：构建图：全局参数插件配置常用配置参数测试推理是否可以代码推理CLI推理性能测试小结验证是否严重退化使用NVIDIATriton部署在线推理服务器代码弄下来编译镜像启动容器安装依赖量化构建trtengines图Triton模板说明实操发起Tr
大白话解释深度学习中多尺度特征融合及其意义来自宇宙的曹先生深度学习人工智能
想象一下，你正在看一幅城市街道的照片。在这张照片中，你可能会看到：远处的小汽车，它们在图像中看起来很小。近处的大巴士，它们在图像中看起来很大。还有一些行人，他们可能在不同的距离上，大小各异。假设你想训练一个计算机程序来识别和分割这些不同的物体（汽车、巴士、行人）。如果这个程序只能在一个固定的尺度上“看”图像，比如说只能处理大物体，它可能会错过那些远处的小汽车，因为这些小汽车在图像中占据的像素很少。
想要了解大模型，看懂这一篇就够了！大模型工作流程及核心参数介绍！ Gq.xxu qwen3 vllm transforms 大语言模型部署深度学习人工智能
若想深入探究大模型核心参数的效果与作用，就务必先弄清大模型的工作流程，明确核心参数在流程各阶段的效能与功能，知晓其具体含义。一，大模型的工作流程大模型运行时的工作原理可以概括为输入处理→特征提取→模型推理→结果生成四个核心阶段，整个过程融合了深度学习架构、自然语言处理技术以及分布式计算能力。从用户输入到大模型输出，整个工作的处理流程如下：输入文本→分词→嵌入+位置编码→Transformer多层处
深度学习-Tensor
Tensor张量：与numpy中的ndarray不同之处：tensor可以在GPU或其他专用硬件上运行，以加速计算。一、Tensor初始化1.直接从数据中创建data=[[1,2],[3,4]]x_data=torch.tensor(data)2.从numpy数组创建np_array=np.array(data)x_np=torch.from_numpy(np_array)3.从另一个Tensor
基于存算一体架构的实时深度学习推理优化瑕疵热点资讯架构深度学习人工智能
博客主页：瑕疵的CSDN主页Gitee主页：瑕疵的gitee主页⏩文章专栏：《热点资讯》基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化引言存算一体架构的核心优势1.能效比突破2.实时性保障架构设计与实现技术1.存储单元创新2.硬件加速器设计3.电路级优化深度学习推理优化策略1.模型压缩技术2.硬件-软件协同优化3.运行时调度典型应
【深度学习新浪潮】什么是上下文长度？小米玄戒Andrew 深度学习新浪潮深度学习人工智能 LLM 语言模型大模型模型优化上下文长度
大型语言模型（LLM）的上下文长度是指模型在处理当前输入时能够有效利用的历史文本长度，通常以token（如单词、子词或标点）为单位衡量。例如，GPT-4支持128Ktoken的上下文，而Llama4Scout甚至达到了10Mtoken的惊人规模。这一指标直接影响模型在长文档理解、多轮对话等复杂任务中的表现。一、上下文长度的合理范围上下文长度的选择需结合具体应用场景：日常对话：通常需要8K–32Kt
Manus AI与多语言手写识别 tonngw 人工智能
技术文章大纲：ManusAI与多语言手写识别引言手写识别技术的发展背景与市场需求ManusAI的定位与核心技术优势多语言场景下的挑战与机遇ManusAI的核心技术架构基于深度学习的端到端手写识别模型多模态数据融合（笔迹压力、书写轨迹等）自适应语言模型与字符集扩展机制多语言手写识别的关键技术非拉丁语系（中文、阿拉伯语等）的笔迹特征提取小样本语言数据的迁移学习策略上下文感知与语法纠错在低资源语言中的应
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
【AI大模型】神经网络反向传播：核心原理与完整实现我爱一条柴ya 学习AI记录人工智能神经网络深度学习 ai AI编程
一、反向传播的本质与意义反向传播（Backpropagation）是神经网络训练的核心算法，通过链式法则高效计算损失函数对网络参数的梯度，实现神经网络的优化学习。它的出现解决了神经网络训练中的关键瓶颈，使深度学习成为可能。为什么需要反向传播？参数规模爆炸：现代神经网络有数百万至数十亿参数手动计算不可行：复杂网络梯度计算量指数级增长高效优化需求：梯度下降算法需要精确的梯度计算二、前向传播与反向传播对
基于YOLOv8深度学习架构的智能农业巡检小车系统—面向农作物与杂草实时精准识别的创新实践
1.科技赋能智慧农业随着全球人口的持续增长和农业生产面临的挑战，精准农业已成为现代农业发展的必然趋势。其中，农作物与杂草的精准识别是实现自动化、智能化管理的关键一环。传统的人工除草效率低下，化学除草则可能带来环境问题。因此，开发高效、精准、环保的智能农业系统迫在眉睫。本文将深入探讨一款基于深度学习和智能硬件集成的农田作业智能小车系统。我们将重点聚焦于其硬件系统设计、软件系统架构、核心算法创新(特别
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc