李滚滚

RNN的大家族啊~~

文章目录

1 基本RNN单元及其变体

1.1 RNN模型形象化理解

1.1.1 序列数据
1.1.2 递归神经网络及用例

机器人翻译用例

1.1.3 梯度消失形象化解释

1.2 RNN基本模型

1.2.1 RNN网络模型

机器人翻译用例对应公式理解

1.2.2 激活函数
1.2.3 损失函数
1.2.4 RNN的训练
1.2.5 梯度爆炸和梯度消失

1.3 LSTM单元

1.3.1 LSTM网络模型结构
1.3.2 LSTM训练

1.4 GRU单元

GRU和LSTM的区别和联系

1.5 [双向RNN](https://cloud.tencent.com/developer/article/1144238)
1.6 带有其他特性的RNN单元

1.6.1 DropoutWrapper

2 RNN模型

2.1 PTB-LSTM语言模型
2.2 Seq2Seq模型
2.3 Relational-RNN（attention）
2.4 CRNN

1 基本RNN单元及其变体

1.1 RNN模型形象化理解

现实中很多数据具有时间、空间等方面的序列特征，数据序列的前后部分具有逻辑上的关系，神经网络的研究者针对这类数据设计了RNN（循环神经网络）模型。对于经常使用手机和上网的我们来说，RNN其实无时无刻不存在我们身边，因为RNN已经被用于语音识别，机器翻译，股票预测，智能问答等领域，甚至图像识别的某些方面也会用到RNN，例如图像文本检测识别，以及视频检测。第一次打电话订餐与一位智能机器人对话时还有一点兴奋和紧张，不过默认接通机器人有时很不方便，想接通人工服务也是很有意思，因为目前机器人的应答还不是很智能，只要有一次知道了接通人工服务的“暗号”，下一次只要说这句话就可以触发真人接通服务了，?~
接下来通俗理解主要来自如何深度理解RNN？——看图就好！，这一部分基本上没有公式，用形象化的表示展现了RNN涉及的几个问题，序列结构，网络形式，梯度消失，对后面公式形式推导的理解有很大的帮助。

1.1.1 序列数据

RNN 是一种层内神经元之间形成有向环连接的神经网络模型，擅长对序列数据进行建模处理。序列数据有很多种形式，音频是一种自然的序列，如下图，可以将音频频谱图分成块并将其馈入RNN.文本也是一种形式的序列，英语根据语法将单词组合成有意义的句子，说明不同的单词序列得到的信息是不同的

1.1.2 递归神经网络及用例

RNN有顺序存储的概念，就像我们的大脑能够自然而然记住已经练习过的序列，RNN也是如此。我们需要知道RNN是如何学习顺序存储的。首先一个传统的神经网络如下左图，也称为前馈神经网络，它包含输入层，隐藏层和输出层。如果在神经网络中添加一个传递先前信息的循环，以便以前的信息能够影响以后的信息，就会变成如下中图。

这基本上就是一个递归神经网络了，RNN让循环机制充当高速公路以允许信息从一个步骤流到下一个步骤。hidden state是先前输入的表示，也会对输出有影响。

机器人翻译用例

假设我们想要构建一个聊天机器人，该聊天机器人可以根据用户输入的文本对意图进行分类。

为了解决这个问题。首先，我们将使用RNN对文本序列进行编码。然后，我们将RNN输出馈送到前馈神经网络中，该网络将对用户输入意图进行分类。
假设用户输入：what time is it？首先，我们将句子分解为单个单词。RNN按顺序工作，所以我们一次只能输入一个字。

将句子分成单词序列

第一步是将“What”输入RNN，RNN编码“what”并产生输出

对于下一步，我们提供单词“time”和上一步中的隐藏状态。RNN现在有关于“what”和“time”这两个词的信息。

我们重复这个过程，直到最后一步。你可以通过最后一步看到RNN编码了前面步骤中所有单词的信息。

由于最终输出是从序列的部分创建的，因此我们应该能够获取最终输出并将其传递给前馈层以对意图进行分类。

对于那些喜欢在这里查看代码的人来说，使用python展示了控制流程应该是最好的方式。

首先，初始化网络层和初始隐藏状态。隐藏状态的形状和维度将取决于你的递归神经网络的形状和维度。然后循环输入，将单词和隐藏状态传递给RNN。RNN返回输出和修改的隐藏状态，接着就继续循环。最后，将输出传递给前馈层，然后返回预测。整个过程就是这样！进行递归神经网络的正向传递的控制流程是for循环。

1.1.3 梯度消失形象化解释

我们看到隐藏状态到最后颜色分布很奇怪，这是为了说明RNN短时记忆的问题。

短期记忆问题是由臭名昭着的梯度消失问题引起的，这在其他神经网络架构中也很普遍。由于RNN处理很多步骤，因此难以保留先前步骤中的信息。正如你所看到的，在最后的时间步骤中，“what”和“time”这个词的信息几乎不存在。短期记忆和梯度消失是由于反向传播的性质引起的，反向传播是用于训练和优化神经网络的算法。为了理解这是为什么，让我们来看看反向传播对深度前馈神经网络的影响。
训练神经网络有三个主要步骤，如下左图所示。首先，它进行前向传递并进行预测。然后，它使用损失函数将预测与基础事实进行比较。损失函数输出一个错误值，该错误值是对网络执行得有多糟糕的估计。最后，它使用该误差值计算网络中每个节点的梯度，进行反向传播，调整网络参数。

梯度是用于调整网络内部权重的值，以便能更新整个网络。梯度越大，调整越大，反之亦然，这也就是问题所在。在进行反向传播时，图层中的每个节点都会根据渐变效果计算它在其前面的图层中的渐变。因此，如果在它之前对层的调整很小，那么对当前层的调整将更小。
这会导致渐变在向后传播时呈指数级收缩。由于梯度极小，内部权重几乎没有调整，因此较早的层无法进行任何学习。这就是消失的梯度问题。
循环神经网络中这种梯度消失是什么样的呢？可以将循环神经网络中的每个时间步骤视为一个层。为了训练一个递归神经网络，你使用了一种称为通过时间反向传播的方法。这样梯度值在每个时间步长传播时将呈指数级收缩。

同样，梯度值将用于在神经网络权重中进行调整，从而允许其学习。小的渐变意味着小的调整。这将导致最前面的层没有优化。由于梯度消失，RNN不会跨时间步骤学习远程依赖性。这意味着在尝试预测用户的意图时，有可能不考虑“what”和“time”这两个词。然后网络就可能作出的猜测是“is it？”。这很模糊，即使是人类也很难辨认这到底是什么意思。因此，无法在较早的时间步骤上学习会导致网络具有短期记忆。

1.2 RNN基本模型

RNN模型不属于前馈神经网络，主要特点是隐藏层的输出不仅连接到下一层，而且还连接到自身，这种连接到自身的特点构成了数据的循环。通常RNN模型的输入和输出都具有“时序性”。为了表达RNN模型的“循环”特性，可以将其按照输入序列的长度展开。展开后，RNN可以看作由一系列核心模块（RNN单元）形成的二维阵列，在该阵列中，前一时刻与后一时刻的RNN单元相互连接，上一层与下一层的RNN单元相互连接。在RNN单元内部，我们可以设计出各种复杂的计算流程，从而构造出不同的模型，满足不同场景需求。

1.2.1 RNN网络模型

假设一个普通的全连接网络如图1.1左图所示，输入为 $N$ 个节点，即 ${{x}}=({{x}_{1}},{{x}_{2}},\cdots ,{{x}_{N}})$ ，隐藏层有 $M$ 个节点，即 ${{h}}=({{h}_{1}},{{h}_{2}},\cdots ,{{h}_{M}})$ ，输出层有 $k$ 个节点，那么经过一个隐藏层 $h$ 之后，得到 $h = f (U x)$ ，然后经过下一层到达输出层 $o$ ，即 $o = f (V s)$ 。这是一个完整的全连接网络，将节点隐藏就会变成图1.1右图黄色框框中的样子，RNN网络模型多了一个循环隐藏层，用于学习之前序列对输出的影响。
简单RNN有三层：输入层、循环隐藏层和输出层，如图1.1右图所示。图1.1右图左侧是RNN模型的抽象表示，将时间维度进行了压缩，其中 $x$ 是输入，将输入单元与隐藏层中的隐藏单元全连接，该连接由权重矩阵 $U$ 控制，根据输入单元与权重矩阵 $U$ 得到隐含层的值; $W$ 则是上个时刻隐含层的值作为这个时刻输入对应的权重； $V$ 是隐含层到输出层的权重， $o$ 是输出。
将时间维度展开以后，更能方便理解，这时输入 $x$ 、隐层值 $s$ 和输出 $o$ 都有了下标 $t$ ， $x$ 是一系列沿时间 $t$ 的向量 $\text{ }\!\!\{\!\!\text{ }\cdots {{\text{x}}_{t-1}}\text{,}{{\text{x}}_{t}}\text{,}{{\text{x}}_{t+1}}\text{,}\cdots \text{ }\!\!\}\!\!\text{ }$ ，其中 ${{x}_{t}}=({{x}_{1}},{{x}_{2}},\cdots ,{{x}_{N}})$ ，隐藏层有 $M$ 个隐藏单元 ${{h}_{t}}=({{h}_{1}},{{h}_{2}},\cdots ,{{h}_{M}})$ ，这个 $t$ 表示时刻， $t - 1$ 是上一时刻， $t + 1$ 则是下一时刻。不同时刻输入对应不同的输出，而且上一时刻的隐含层会影响当前时刻的输出。它们通过网络定义的循环结构沿时间彼此连接。使用较小非零元素的隐藏单元初始化能够提升网络的整体性能和稳定性。

图1.1 RNN基本结构

从公式上来说，原来 $h = f (U x)$ ，但是现在如果要求当前时刻的输出 $h_t$ ，还要加上上一时刻 $h_{t-1}$ 输出的影响 $Wh_{t-1}$ ，再加上当前时刻偏置 $b_t$ 【偏置在神经网络中的作用】,状态空间的记忆单元就可以被隐藏层定义为：
$h_t = f(s_t)\quad\quad (1-1)$ ${{s}_{t}}=U{{x}_{t}}+W{{h}_{t-1}}\text{+}{{b}_{t}}\quad\quad (1-2)$ 其中 $f$ 是激活函数， ${{h}_{t}}$ 是隐含层的输入， $W$ 为隐藏单元的权重矩阵， ${{b}_{t}}$ 为隐藏单元的偏置向量。
设输出层的输入为 ${{y}_{t}}$ ，则很容易可以得到输出：
${{y}_{t}}=V{h}_{t}\text{+}{{b}_{o}}\quad\quad (1-3)$ ${{o}_{t}}=f({{y}_{t}})\quad\quad (1-4)$ 其中 $f$ 是激活函数， ${{b}_{o}}$ 是输出层的偏置向量， $y_{t}^{o}$ 是网络的输出。由于“输入-目标对”是沿时间的序列，因此上述步骤随着时间 $t=(1,2,\cdots ,T)$ 重复。公式(1-1)和(1-3)显示了RNN由特定非线性状态公式构成，该公式沿时间迭代。在每个时间步中，隐藏状态根据输入向量预测输出。RNN的隐藏状态是一组值的集合(除去任何外部因素的影响)，该集合总结了与该网络在之前很多时间步上的状态相关的必要信息。这个集合可定义该网络的未来行为，作出准确的输出预测。虽然RNN在每个单元中仅仅使用一个简单的非线性激活函数。但是，如果此类简单结构沿时间步经过良好训练，则它能够建模丰富的动态关系，可以学习到前面很久的序列信息： $h_{t}=f\left(s_{t}\right)=f\left(U x_{t}+W f\left(U x_{t-1}+Wh_{t-2}+b_{t-1}\right)+b_t\right)\cdots \quad\quad (1-5)$

机器人翻译用例对应公式理解

上述机器人翻译的例子中，是对“What time is it?”进行翻译，首先，我们将句子分解为单个单词。RNN按顺序工作，所以我们一次只能输入一个字。第一步是将“What”对应的原始特征向量 $x_1$ （可能是词向量）输入RNN，RNN编码“what”并产生输出，其中隐藏状态为 $h_1 = f(Ux_1+bh_1)$ ，输出为 $o_1 = f(Vh_1+bo_1)$ .
对于下一步，我们提供单词“time”对应的原始特征向量 $x_2$ 和上一步中的隐藏状态 $h_1$ 。RNN现在有关于“what”和“time”这两个词的信息，隐藏层状态为 $h_2 = f(Ux_2+Wh_1+bh_2)$ ，输出层状态为 $o_2 = f(Vh_2+bo_2)$ 。
我们重复这个过程，直到最后一步。通过最后一步看到RNN编码了前面步骤中所有单词的信息。

1.2.2 激活函数

非线性函数比线性函数强大，因为它们可以绘制非线性边界。RNN中一个或多个连续隐藏层中的非线性是学习“输入-目标关系”的关键。
Sigmoid函数是常用的激活函数，它将真值归一化到[0,1]区间。该激活函数主要用于输出层；Tanh激活函数实际上是缩放的Sigmoid函数；ReLU是另一个常用激活函数，向正输入值开放。
激活函数的选择主要取决于具体问题和数据本身。
sigmoid函数仅适合输出区间为[0,1]的网络，且存在两个缺点，第一，sigmoid函数会使神经元快速饱和，导致梯度消失问题；第二，sigmoid的输出不以零为中心会导致不稳定的权重梯度更新。tanh也存在上述缺点。
与Sigmoid函数和tanh函数相比，ReLU激活有两个优点：第一，ReLU函数导致更加稀疏的梯度，并大幅加快随机梯度下降(SGD)的收敛速度；第二，因其可通过将激活值二值化为零，所以ReLU函数的计算成本低廉；但是，ReLU无法抵抗大型梯度流(gradient flow)，随着权重矩阵增大，神经元可能在训练过程中保持未激活状态。

1.2.3 损失函数

损失函数的挑选因具体问题而异，一般比较流行的损失函数包括预测实数值的欧几里德距离和 Hamming距离,和用于分类问题的交叉熵损失函数。
设某时刻的损失函数 $E_{t}=\frac{1}{2}\left(y_{d}-y_{t}^{o}\right)^{2}$ ,通过对比输出 $y_{t}^{o}$ 和目标 $y_{d}$ 之间的差距而评估了神经网络的性能，则最终损失函数为对每一个时间步上的损失进行求和： $E=\sum_{t=1}^{T} E_{t}\quad\quad (1-6)$

1.2.4 RNN的训练

RNN使用BPTT方法训练，BPTT实质上就是朴素的BP算法，采的“链式法则”求解参数梯度，唯一的不同在于每一个time和step上参数共享。从数学的角度来讲，BP算法是一个单变量求导过程，而BPTT算法是一个复合函数求导过程。BPTT通过三个主要步骤进行求解：

得到误差项
前向计算每个神经元的输出值，模型架构中给出了前向传播的表达式,根据网络前向传播得到时刻 $t$ 的整个传输过程为 $o_t = f(V f(Ux_t+Wh_{t-1}+b_t)+b_0)$ ,其中 $y_t = V f(Ux_t+Wh_{t-1}+b_t)+b_0$ , $h_t = f(Ux_t+Wh_{t-1}+b_t)$ 。
反向计算每个神经元的误差项值，它是误差函数 $E$ 对神经元 $j$ 的加权输入的偏导数；损失函数为 $E$ ，在 $t$ 时刻，根据误差反向传播和公式(1-3)(1-4)，可以得到误差项： $\frac{\partial E_{t}}{\partial y_{t}}=\frac{\partial E_{t}}{\partial o_{t}} \frac{\partial o_{t}}{\partial y_{t}}=E^{\prime}\left(o_{t}\right) f^{\prime}\left(y_{t}\right)\quad\quad (1-7)$
计算每个权重的梯度
对于隐藏神经元到输出的权重矩阵 $V$ ，每个时刻 $t$ 的误差只与当前时刻的误差相关，类似于普通神经网络中的误差反向传播，根据(1-3) $y_t$ 和 $V$ 的关系，得到： $\frac{\partial E_{t}}{\partial V}=\frac{\partial E_{t}}{\partial y_{t}} \frac{\partial y_{t}}{\partial V}=\frac{\partial E_{t}}{\partial y_{t}} h_{t}\quad\quad(1-8)$ 隐藏层与输入层之间的权重矩阵 $W$ 则涉及到序列数据之间的联系,具体传播过程展开如下图所示，某个样本的误差需要将所有时刻的误差加起来，在时刻 $t$ 对 $W$ 求偏导为： $\frac{\partial E_{t}}{\partial W}=\frac{\partial E_{t}}{\partial y_{t}} \frac{\partial y_{t}}{\partial h_{t}} \frac{\partial h_{t}}{\partial W}\quad\quad(1-9)$ 由于 $h_t = f(Ux_t+Wh_{t-1}+b_t) = f(Ux_t+W(f(Ux_{t-1}+Wh_{t-2}+b_{t-2}))+b_t)$ 一直依赖上一时刻，所以某个样本的误差总是所有时刻误差的累加和，不断对每个时刻求偏导，误差一直反向传播到 $t$ 为0的时刻，即: $\frac{\partial E}{\partial W}=\sum_{t} \frac{\partial E_{t}}{\partial W}=\sum_{k=1}^{t} \frac{\partial E_{t}}{\partial y_{t}} \frac{\partial y_{t}}{\partial h_{t}}\frac{\partial h_t}{\partial h_k} \frac{\partial h_{k}}{\partial W}=\sum_{k=1}^{t} \frac{\partial E_{t}}{\partial y_{t}} \frac{\partial y_{t}}{\partial h_{t}}\left(\prod_{j=k+1}^{t} \frac{\partial h_{j}}{\partial h_{j-1}}\right) \frac{\partial h_{k}}{\partial W}\quad\quad(1-10)$ 其中 $\frac{\partial s_{t}}{\partial s_{k}}$ 根据链式法则是会一直乘到 $k$ 时刻， $k$ 可以是1，2，……
输入与隐藏层之间的权重矩阵为 $U$ ,对 $U$ 进行求导： $\frac{\partial E_{t}}{\partial U}=\frac{\partial E_{t}}{\partial h_{t}} \frac{\partial h_{t}}{\partial U}=\frac{\partial E_{t}}{\partial h_{t}} x_{t}\quad\quad(1-12)$
迭代更新
最后针对每个权重参数的梯度通过随机梯度下降算法，对参数进行更新。

1.2.5 梯度爆炸和梯度消失

通过上述公式可以看到在对权重矩阵W求导的时候，因为要追溯到之前时刻的状态，所以会产生连乘操作，当W的值很小时，连乘可能会导致梯度消失，当W很大时，连乘会造成梯度爆炸。
解决方法：

对于RNN，可以通过梯度截断，避免梯度爆炸
可以通过添加正则项，避免梯度爆炸
使用LSTM等自循环和门控制机制，避免梯度消失
优化激活函数，譬如将sigmold改为relu，避免梯度消失

1.3 LSTM单元

1.3.1 LSTM网络模型结构

LSTM即Long Short Memory Network，长短时记忆网络，是RNN网络的一种变体，可以说它克服了RNN无法很好处理远距离依赖问题。
LSTM通过累加的形式改变了使用链式求导法则会导致梯度变为连乘的问题，从而增加网络记忆长度。但是其重复网络模块的结构则复杂很多，它实现了三个门计算，即遗忘门、输入门和输出门。实际上简单来说可以看作LSTM增加了一个状态 $c$ 来保持长期的状态，成为单元状态。

图 1-2

这时就有一个关键问题，如何控制长期状态 $c$ ，实现的方法就是刚刚提到的LSTM实现了三个门做控制开关，第一个是遗忘门控开关，控制继续保持长期状态 $c$ ，因此遗忘门负责决定保留多少上一时刻的单元状态到当前时刻的单元状态。第二个门是输入门开关，负责控制把当前时刻的状态输入到长期状态 $c$ ，因此输入门负责决定保留多少当前时刻的输入到当前时刻的单元状态。第三个门是输出门，负责控制是否把长期状态 $c$ 作为当前LSTM的输出，所以输出门负责决定当前时刻的单元状态有多少输出。
那么门是什么呢，我认为就与神经元的激活函数道理是一样的，看后面公式我们可以知道，gate就是一个全连接层， $\sigma(Wx+b)$ ，输入是一个向量，输出经过sigmoid处理后是0-1之间的实数向量，1 表示全部保留，0表示全部忘记。

图1-3

图1.4 LSTM 基本结构1

每个LSTM包含了三个输入，即上一时刻的单元状态 $c_{t-1}$ 、上一时刻LSTM的输出 $h_{t-1}$ 和当前时刻输入 $x_t$ 。

图 1.5 LSTM基本结构2

遗忘门：
用来计算上一时刻输出 $h_{t-1}$ 和这一时刻输入 $x_t$ 中哪些信息需要忘记。于是有 $f_{t}=\sigma\left(W_{f} \cdot\left[h_{t-1}, x_{t}\right]+b_{f}\right) = \sigma(W_{f h} \mathbf{h}_{t-1}+W_{f x} \mathbf{x}_{t}+\mathbf{b}_{f})=\sigma(\mathbf{n e t}_{f, t})\quad\quad(1-13)$ 其中，中括号表示两个向量相连合并， $W_f$ 表示遗忘门的权重矩阵， $\sigma$ 为sigmoid函数， $b_f$ 为遗忘门的偏置项。设输入层的维度为 $d_x$ ，隐藏层维度为 $d_h$ ，上一时刻的单元状态 $c_{t-1}$ 维度为 $d_c$ ，则 $W_f$ 维度为 $d_{e} \times\left(d_{h}+d_{x}\right)$ ， $\mathbf{n e t}_{f, t}$ 表示遗忘门的输入。
输入门：
用来计算哪些信息保存都状态单元中，看图1.5的划分可以看到，输入门分成两部分，第一部分可以看作当前输入有多少保存到单元状态之中，表示为：

${{i}_{t}}=\sigma ({{W}_{i}}\cdot [{{h}_{t-1}},{{x}_{t}}]+{{b}_{i}})= \sigma(W_{i h} \mathbf{h}_{t-1}+W_{i x} \mathbf{x}_{t}+\mathbf{b}_{i})=\sigma(\mathbf{n e t}_{i, t})\quad\quad(1-14)$

另一部分可以看作当前输入产生多少新信息添加到单元状态之中，表示为：

$\overline{c}_{t}=\tanh \left(W_{\overline{c}} \cdot\left[h_{t-1}, x_{t}\right]+b_{\overline{c}}\right)= \sigma(W_{\overline{c} h} \mathbf{h}_{t-1}+W_{\overline{c} x} \mathbf{x}_{t}+\mathbf{b}_{\overline{c}})=\sigma(\mathbf{n e t}_{\overline{c}, t})\quad\quad(1-15)$

结合这两部分来创建一个新记忆。当前时刻的单元状态由遗忘门输出和上一时刻状态的积加上输入门两部分的积，即 $c_{t}=f_{t}^{*} c_{t-1}+i_{t} * \overline{c}_{t}\quad\quad(1-16)$ 输出门：
通过sigmoid函数计算需要输出哪些信息，再乘以当前单元状态通过tanh函数的值，得到输出。

$o_{t}=\sigma\left(W_{o} \cdot\left[h_{t-1}, x_{t}\right]+b_{o}\right)= \sigma(W_{o h} \mathbf{h}_{t-1}+W_{o x} \mathbf{x}_{t}+\mathbf{b}_{o})=\sigma(\mathbf{n e t}_{o, t})\quad\quad(1-17)$ $h_{t}=o_{t}{*} \tanh \left(c_{t}\right)\quad\quad(1-18)$

最后，输出层的输入 $y_{t}^{i}={{W}_{yi}}{{h}_{t}}$ ，输出为 $y_{t}^{o}=\sigma (y_{t}^{i})$ 。
设某时刻的损失函数为 $E_{t}=\frac{1}{2}\left(y_{d}-y_{t}^{0}\right)^{2}$ ,则某样本的损失为：

$E=\sum_{t=1}^{T} E_{t}\quad\quad(1-20)$

1.3.2 LSTM训练

LSTM使用BPTT算法进行训练，与普通RNN训练方法相同。

前向计算每个神经元的输出值，一共有五个量需要计算，即 $f_t,i_i,\overline{c}_t,o_t,h_t,c_t$ ，计算方法在模型结构中进行了推导。
反向计算每个神经元的误差值，与RNN一样，LSTM误差项发想传播也是包括两个方向，一个是沿时间的反向传播，即从当前时刻 $t$ 开始，计算每个时刻的误差项，一个是将误差项向上一层传播。

从LSTM的前向传播可以看到，需要学习很多权重参数，同时也可以看到LSTM的输出 $h_t$ 有四个输入分量加权影响，即三个门相关的 ${{f}_{t}},{{i}_{t}},{{\bar{c}}_{t}},{{o}_{t}}$ ，而且其中权重 $W$ 都是拼接的，所以在学习时需要分割出来，即：

$\begin{aligned} W_{f} &=W_{f x}+W_{f h} \\ W_{i} &=W_{i x}+W_{i h} \\ W_{\overline{c}} &=W_{\overline{c} x}+W_{\overline{c} h} \\ W_{o} &=W_{o x}+W_{o h} \end{aligned} \quad\quad(1-19)$

这时可以明确要学习的参数有，分割出来的八个权重矩阵以及 ${{f}_{t}},{{i}_{t}},{{\bar{c}}_{t}},{{o}_{t}}$ 对应的偏置向量 $b_f,b_i,b_{\overline {c}},b_o$ ，以及最后输出层的权重矩阵 $W_{yi}$ ，所以要根据输出得到与他们相关的误差项。

将误差沿时间反向传递
设当前时刻 $t$ 的误差项 $\delta_{t}=\frac{\partial E}{\partial h_{t}}$ ，那么误差沿时间反向传递就需要计算 $t - 1$ 时刻的误差项 $\delta_{t-1}$ ，则

$\delta_{t-1}=\frac{\partial E}{\partial h_{t-1}}=\frac{\partial E}{\partial h_{t}} \frac{\partial h_{t}}{\partial h_{t-1}}=\delta_{t} \frac{\partial h_{t}}{\partial h_{t-1}}\quad\quad(1-20)$

$\frac{\partial h_{t}}{\partial h_{t-1}}$ 是一个Jacobian矩阵。如果隐藏层h的维度是N的话，那么它就是一个 $N\times N$ 矩阵。LSTM的数输出 $h_t$ 可以看成是一个复合函数， $f\left[f_{t}\left(h_{t-1}\right), i_{t}\left(h_{t-1}\right), \overline{c}_{t}\left(h_{t-1}\right), o_{t}\left(h_{-1}\right)\right]$ ，因为 ${{f}_{t}},{{i}_{t}},{{\bar{c}}_{t}},{{o}_{t}}$ 都是 $h_{t-1}$ 的函数，由全导数公式有

$\delta_{t} \frac{\partial h_{t}}{\partial h_{t-1}}=\delta_{t} \frac{\partial h_{t}}{\partial c_{t}} \frac{\partial c_{t}}{\partial f_{t}} \frac{\partial f_{t}}{\partial n e t_{f t}} \frac{\partial n e t_{f t}}{\partial h_{t-1}}+\delta_{t} \frac{\partial h_{t}}{\partial c_{t}} \frac{\partial c_{t}}{\partial i_{t}} \frac{\partial i_{t}}{\partial n e t_{i t}} \frac{\partial n e t_{it}}{\partial h_{t-1}}\\ \quad\quad\quad\quad\quad\quad\quad\quad +\delta_{t} \frac{\partial h_{t}}{\partial c_{t}} \frac{\partial c_{t}}{\partial \overline{c}_{t}} \frac{\partial \overline{c}_{t}}{\partial n e t_{ \overline{c} t}} \frac{\partial n e t_{ \overline{c}t}}{\partial h_{t-1}}+\delta_{t} \frac{\partial h_{t}}{\partial o_{t}} \frac{\partial o_{t}}{\partial n e t_{o t}} \frac{\partial n e t_{ot}}{\partial h_{t-1}}\quad\quad(1-21)$

将上述所有偏导都求出来【注：函数： $f (z) = t a n h (z)$ 导数： $f(z)' = 1 − (f(z))^2$ 】：

$\begin{array}{l} {\frac{\partial \mathbf{h}_{\mathrm{t}}}{\partial \mathbf{o}_{t}} = tanh(c_t)\quad\quad \frac{\partial h_{t}}{\partial c_{t}}=o_{t} *\left(1-\tanh \left(c_{t}\right)^{2}\right)} \\ { \frac{\partial c_{t}}{\partial f_{t}}=c_{t-1} \quad\quad \frac{\partial f_{t}}{\partial n e t_{f, t}}=f_{t}{*}\left(1-f_{t}\right) \quad\quad \frac{\partial n e t_{f, t}}{\partial h_{t-1}}=W_{f h} }\\ { \frac{\partial c_{t}}{\partial i_{t}}=\overline{c}_{t} \quad\quad \frac{\partial i_{t}}{\partial n e t_{i, t}}=i_{t}{*}\left(1-i_{t}\right) \quad\quad \frac{\partial n e t_{i, t}}{\partial h_{t-1}}=W_{i h}}\\ { \frac{\partial c_{t}}{\partial \overline{c}_{t}}=i_{t} \quad\quad \frac{\partial \overline{c}_{t}}{\partial n e t_{\overline{c}, t}}=(1-\overline{c}_t^2) \quad\quad \frac{\partial n e t_{\overline{c}, t}}{\partial h_{t-1}}=W_{\overline{c} h}}\\ { \frac{\partial o_{t}}{\partial net_{o t}}=o_{t}{*}\left(1-o_{t}\right) \quad\quad \frac{\partial n e t_{o, t}}{\partial h_{t-1}}=W_{o h}}\end{array} \quad\quad(1-22)$

再设：

$\delta_{f, t}=\frac{\partial E}{\partial n e t_{f, t}} ,\quad \delta_{i, t}=\frac{\partial E}{\partial n e t_{i, t}} ,\quad \delta_{\overline{c}, t}=\frac{\partial E}{\partial n e t_{\overline{c}, t}} ,\quad \delta_{o, t}=\frac{\partial E}{\partial n e t_{o, t}}$

根据求出来的所有偏导可以知道 $\begin{array}{l} {\delta_{o, t}=\delta_{t} \times \tanh \left(\mathbf{c}_{t}\right) \times \mathbf{o}_{t} \times\left(1-\mathbf{o}_{t}\right)} \\ {\delta_{f, t}=\delta_{t} \times \mathbf{o}_{t} \times \left(1-\tanh \left(\mathbf{c}_{t}\right)^{2}\right) \times \mathbf{c}_{t-1} \times \mathbf{f}_{t} \times \left(1-\mathbf{f}_{t}\right)} \\{ \delta_{i, t}=\delta_{t} \times \mathbf{o}_{t} \times \left(1-\tanh \left(\mathbf{c}_{t}\right)^{2}\right) \times \overline{c}_t \times \mathbf{i}_{t} \times \left(1-\mathbf{i}_{t}\right)} \\{ \delta_{\overline{c}, t}=\delta_{t} \times \mathbf{o}_{t} \times \left(1-\tanh \left(\mathbf{c}_{t}\right)^{2}\right) \times \mathbf{i}_{t} \times\left(1-\overline{c}_t^{2}\right)}\end{array} \quad\quad(1-23)$

将式（1-22)(1-23）带入（1-21）得到：
$\delta_{t-1}=\delta_{t} \frac{\partial h_{t}}{\partial h_{t-1}}\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\\= \delta_{o, t}\frac{\partial \mathbf{n} e t_{o, t}}{\partial \mathbf{h}_{\mathrm{t}-1}}+\delta_{f, t}\frac{\partial \mathbf{n} e t_{f, t}}{\partial \mathbf{h}_{\mathrm{t}-1}}+\delta_{i, t}\frac{\partial \mathbf{n} e t_{i, t}}{\partial \mathbf{h}_{\mathrm{t}-1}}+\delta_{\overline{c}, t}\frac{\partial \mathbf{n} e t_{\overline{c}, t}}{\partial \mathbf{h}_{\mathrm{t}-1}}\\ =\delta_{f, t} W_{f h}+\delta_{i, t} W_{i h}+\delta_{\overline{c}, t} W_{\overline{c} h}+\delta_{o, t} W_{o h}\quad\quad(1-24)$

式（1-23）（1-24）就是将误差沿时间反向传播一个时刻的公式。有了它，我们可以写出将误差项向前传递到任意 $k$ 时刻的公式：

$\delta_{k}=\prod_{j=k}^{t-1} \delta_{o, j}W_{o h}+\delta_{f, j}W_{f h}+\delta_{i, j} W_{i h}+\delta_{\overline{c}, j}W_{\overline{c} h}\quad\quad(1-25)$

将误差项传递到上一层
我们假设当前为第 $l$ 层，定义 $l - 1$ 层的误差项是误差函数对 $l - 1$ 层加权输入的导数，即：

$\delta_{t}^{l-1} = \frac{\partial E}{\operatorname{net}_{t}^{l-1}}\quad\quad(1-26)$
本次LSTM的输入 $x_t$ 由下面的公式计算：

$\mathbf{x}_{t}^{l}=f^{l-1}\left(\mathbf{n e t}_{t}^{l-1}\right)\quad\quad(1-27)$

其中 $f^{l-1}$ 为第 $l - 1$ 层的激活函数。因为 $net_{f, t}^{l},$ net $_{i, t}^{l},$ net $_{\tilde{c}, t}^{l},$ net $_{o, t}^{l}$ 都是 $x_t$ 的函数， $x_t$ 又是 $net_t^{l-1}$ 的函数，因此，要求出E对 $net_t^{l-1}$ 的导数，就需要使用全导数公式：
$\frac{\partial E}{\partial \mathbf{n e t}_{t}^{l-1}}= \frac{\partial E}{\partial \mathbf{n e t}_{\mathrm{f}, \mathrm{t}}^{1}} \frac{\partial \mathbf{n e t}_{\mathrm{f}, \mathrm{t}}^{1}}{\partial \mathbf{x}_{t}^{l}} \frac{\partial \mathbf{x}_{t}^{l}}{\partial \mathbf{n e t}_{t}^{1-1}}+ \frac{\partial E}{\partial \mathbf{n e t}_{\mathrm{i}, \mathrm{t}}^{1}} \frac{\partial \mathbf{n e t}_{\mathrm{i}, \mathrm{t}}^{1}}{\partial \mathbf{x}_{t}^{l}} \frac{\partial \mathbf{x}_{t}^{l}}{\partial \mathbf{n e t}_{\mathrm{t}}^{1-1}}\\\quad\quad\quad\quad\quad\quad+ \frac{\partial E}{\partial \mathbf{n e t}_{\mathrm{\overline{c}}, \mathrm{t}}^{1}} \frac{\partial \mathbf{n e t}_{\mathrm{\overline{c}}, \mathrm{t}}^{1}}{\partial \mathbf{x}_{t}^{l}} \frac{\partial \mathbf{x}_{t}^{l}}{\partial \mathbf{n e t}_{\mathrm{t}}^{1-1}} +\frac{\partial E}{\partial \mathbf{n e t}_{\mathrm{o}, \mathrm{t}}^{1}} \frac{\partial \mathbf{n e t}_{\mathrm{o}, \mathrm{t}}^{1}}{\partial \mathbf{x}_{t}^{l}} \frac{\partial \mathbf{x}_{t}^{l}}{\partial \mathbf{n e t}_{\mathrm{t}}^{1-1}}\\ =\delta_{f, t} W_{f h}\times f^{\prime}\left(\mathbf{n} e t_{t}^{l-1}\right)+\delta_{i, t} W_{i h}\times f^{\prime}\left(\mathbf{n} e t_{t}^{l-1}\right)\\ \quad\quad\quad\quad+\delta_{\overline{c}, t} W_{\overline{c} h}\times f^{\prime}\left(\mathbf{n} e t_{t}^{l-1}\right)+\delta_{o, t} W_{o h}\times f^{\prime}\left(\mathbf{n} e t_{t}^{l-1}\right)\\ \quad\quad\quad\quad= (\delta_{f, t} W_{f h}+\delta_{i, t} W_{i h}+\delta_{\overline{c}, t} W_{\overline{c} h}+\delta_{o, t} W_{o h})\times f^{\prime}\left(\mathbf{n} e t_{t}^{l-1}\right)\quad\quad(1-28)$

要求所有参数和偏置的误差项，我们首先根据式（1-13，14，15，17）对某时刻 $t$ 的所有权重求偏导，很容易求出 $t$ 时刻的 $W_{fh} W_{ih} W_{\overline{c}h} W_{oh}$ 的偏导数，即误差项：

$\begin{array}{l} {\frac{\partial E}{\partial W_{f h, t}}=\frac{\partial E}{\partial n e t_{f, t}} \frac{\partial n e t_{f, t}}{\partial W_{f h, t}}=\delta_{f, t} h_{t-1}} \\{\frac{\partial E}{\partial W_{i h, t}}=\frac{\partial E}{\partial n e t_{i, t}} \frac{\partial n e t_{i t}}{\partial W_{i h t}}=\delta_{i, t} h_{t-1}} \\{\frac{\partial E}{\partial W_{\overline{c} h, t}}=\frac{\partial E}{\partial n e t_{\overline{c}, t}} \frac{\partial n e t_{\overline{c}, t}}{\partial W_{\overline{c} h, t}}=\delta_{\overline{c}, t} h_{t-1}} \\ {\frac{\partial E}{\partial W_{o h, t}}=\frac{\partial E}{\partial n e t_{o, t}} \frac{\partial n e t_{o, t}}{\partial W_{o h, t}}=\delta_{o, t} h_{t-1}}\end{array} \quad\quad(1-29)$ 对于整个样本，它的误差是所有时刻的误差之和，最终得到：

$\begin{array}{l}{ \frac{\partial E}{\partial W_{f h}}=\sum_{j=1}^{t} \delta_{f, j} h_{j-1}} \\ {\frac{\partial E}{\partial W_{i h}}=\sum_{j=1}^{t} \delta_{i, j} h_{j-1} }\\ {\frac{\partial E}{\partial W_{\overline{c h}}}=\sum_{j=1}^{t} \delta_{\overline{\tau}, j} h_{j-1}}\\ {\frac{\partial E}{\partial W_{o h}}=\sum_{j=1}^{t} \delta_{o, j} h_{j-1} }\end{array}\quad\quad(1-30)$

对于偏置项 $\mathbf{b}_{f}, \mathbf{b}_{i}, \mathbf{b}_{c}, \mathbf{b}_{o}$ 的梯度，也是将各个时刻的梯度加在一起。下面是各个时刻的偏置项梯度：

$\begin{array}{l}{ \frac{\partial E}{\partial b_{f, t}}=\frac{\partial E}{\partial n e t_{f, t}} \frac{\partial n e t_{f, t}}{\partial b_{f, t}}=\delta_{f, t}}\\ {\frac{\partial E}{\partial b_{i, t}}=\frac{\partial E}{\partial n e t_{i, t}} \frac{\partial n e t_{i, t}}{\partial b_{i, t}}=\delta_{i, t}}\\ {\frac{\partial E}{\partial b_{\overline{c}, t}}=\frac{\partial E}{\partial n e t_{\overline{c}, t}} \frac{\partial n e t_{\overline{c}, t}}{\partial b_{\overline{c}, t}}=\delta_{\overline{c}, t}}\\ {\frac{\partial E}{\partial b_{o, t}}=\frac{\partial E}{\partial n e t_{o, t}} \frac{\partial n e t_{o, t}}{\partial b_{o, t}}=\delta_{o, t} }\end{array}\quad\quad(1-31)$
偏差累加和为：
$\begin{array}{l}{ \frac{\partial E}{\partial b_{f}}=\sum_{j=1}^{t} \delta_{f, j}} \\ {\frac{\partial E}{\partial b_{i}}=\sum_{j=1}^{t} \delta_{i, j}} \\ {\frac{\partial E}{\partial b_{\overline{c}}}=\sum_{j=1}^{t} \delta_{\overline{c}, j}} \\ {\frac{\partial E}{\partial b_{o}}=\sum_{j=1}^{t} \delta_{o, j} }\end{array}\quad\quad(1-32)$
对于 $W_{f x} . W_{i x} . W_{c x .} W_{o x}$ 的权重梯度，与时间没有关系，只需要根据相应的误差项直接计算即可：
$\begin{array}{l} {\frac{\partial E}{\partial W_{\mathscr{fx}}}=\frac{\partial E}{\partial n e t_{f, t}} \frac{\partial n e t_{f, t}}{\partial W_{fx}}=\delta_{f, t} x_{t}}\\ {\frac{\partial E}{\partial W_{i x}}=\frac{\partial E}{\partial n e t_{i, t}} \frac{\partial n e t_{i, t}}{\partial W_{i x}}=\delta_{i, t} x_{t}}\\ {\frac{\partial E}{\partial W_{\overline{c} x}}=\frac{\partial E}{\partial n e t_{\overline{c} t}} \frac{\partial n e t_{\overline{c} , t}}{\partial W_{\overline{c} x}}=\delta_{\overline{c}, t} x_{t}}\\ {\frac{\partial E}{\partial W_{o x}}=\frac{\partial E}{\partial n e t_{o t}} \frac{\partial n e t_{o, t}}{\partial W_{o x}}=\delta_{o t} x_{t}}\end{array}\quad\quad(1-33)$
$W_{yi}$ 的误差项直接求导即可。
$\frac{\partial E}{\partial W_{yi}} = \sigma'(W_{yi}h_t)h_t\quad\quad(1-34)$

根据相应的误差项，计算需要学习的参数的梯度，根据该梯度进行随机梯度下降法学习参数。
以上就是LSTM的训练算法的全部公式，根据我们得到的误差项，加上学习率反向传播用随机梯度下降等优化方法优化参数即可。因为这里面存在很多重复的模式，仔细看看，会发觉并不是太复杂。

1.4 GRU单元

GRU即Gated Recurrent Unit ，是LSTM的一个变体。GRU保持了LSTM的效果同时又使结构更加简单，使用的参数更少，应用十分广泛。
GRU模型如下，它只有两个门了，分别为更新门和重置门，即图中的 $z_t$ 和 $r_t$ 。更新门用于控制前一时刻的状态信息保留到当前状态中的程度，更新门的值越大说明前一时刻的状态信息保留得越多。重置门用于控制忽略前一时刻的状态信息的程度，重置门的值越小说明忽略得越多。

图1-6 GRU单元基本结构

根据图1.6可以得到GRU的传播过程为：
$\begin{aligned} r_{t} &=\sigma\left(W_{r} \cdot\left[h_{t-1}, x_{t}\right]+b_r\right) \\ z_{t} &=\sigma\left(W_{z} \cdot\left[h_{t-1}, x_{t}\right]+b_z\right) \\ \overline{h}_{t} &=\tanh \left(W_{ \overline{h}} \cdot\left[r_{t} h_{t-1}, x_{t}\right]+b_{\overline{h}}\right) \\ h_{t} &=z_{t}* h_{t-1}+（1-z_{t}）{*} \overline{h}_{t} \\ y_{t} &=\sigma\left(W_{o} \cdot h_{t}\right) \end{aligned}$
其中[ ]表示两个向量的连接，*表示两个矩阵元素相乘。GRU的训练同LSTM类似，但是比LSTM的权重矩阵参数更容易，GRU需要学习的参数只有 $W_{r}, W_{z}, W_{\overline{h}}, W_{o}$ ，其中前三个参数LSTM中权重矩阵是一样的，都是拼接矩阵，在求解的时候也需要分割开来。
概括来说，LSTM和CRU都是通过各种门函数来将重要特征保留下来，这样就保证了在long-term传播的时候也不会丢失。此外GRU相对于LSTM少了一个门函数，因此在参数的数量上也是要少于LSTM的，所以整体上GRU的训练速度要快于LSTM的。不过对于两个网络的好坏还是得看具体的应用场景。

GRU和LSTM的区别和联系

1.5 双向RNN

Bidirectional RNN(双向RNN)假设当前t的输出不仅仅和之前的序列有关，并且还与之后的序列有关，例如：预测一个语句中缺失的词语那么需要根据上下文进行预测；Bidirectional RNN是一个相对简单的RNNs，由两个RNNs上下叠加在一起组成。输出由这两个RNNs的隐藏层的状态决定。

如下图：

代码如下：

    # 开始网络构建
    # 1. 输入的数据格式转换
    # X格式：[batch_size, time_steps, input_size]
    X = tf.reshape(_X, shape=[-1, timestep_size, input_size])

    # 单层LSTM RNN
    # 2. 定义Cell
    lstm_cell_fw = tf.nn.rnn_cell.LSTMCell(num_units=hidden_size, reuse=tf.get_variable_scope().reuse)
    gru_cell_bw = tf.nn.rnn_cell.GRUCell(num_units=hidden_size, reuse=tf.get_variable_scope().reuse)

    # 3. 单层的RNN网络应用
    init_state_fw = lstm_cell_fw.zero_state(batch_size, dtype=tf.float32)
    init_state_bw = gru_cell_bw.zero_state(batch_size, dtype=tf.float32)

    # 3. 动态构建双向的RNN网络
    """
    bidirectional_dynamic_rnn(
        cell_fw: 前向的rnn cell
        , cell_bw：反向的rnn cell
        , inputs：输入的序列
        , sequence_length=None
        , initial_state_fw=None：前向rnn_cell的初始状态
        , initial_state_bw=None：反向rnn_cell的初始状态
        , dtype=None
        , parallel_iterations=None
        , swap_memory=False, time_major=False, scope=None)
    API返回值：(outputs, output_states) => outputs存储网络的输出信息，output_states存储网络的细胞状态信息
    outputs: 是一个二元组, (output_fw, output_bw)构成，output_fw对应前向的rnn_cell的执行结果，结构为：[batch_size, time_steps, output_size];output_bw对应反向的rnn_cell的执行结果，结果和output_bw一样
    output_states：是一个二元组，(output_state_fw, output_state_bw) 构成，output_state_fw和output_state_bw是dynamic_rnn API输出的状态值信息
    """
    outputs, states = tf.nn.bidirectional_dynamic_rnn(
        cell_fw=lstm_cell_fw, cell_bw=gru_cell_bw, inputs=X,
        initial_state_fw=init_state_fw, initial_state_bw=init_state_bw)
    output_fw = outputs[0][:, -1, :]
    output_bw = outputs[1][:, -1, :]
    output = tf.concat([output_fw, output_bw], 1)

深度RNN
Deep Bidirectional RNN(深度双向RNN)类似Bidirectional RNN，区别在于每个每一步的输入有多层网络，这样的话该网络便具有更加强大的表达能力和学习能力，但是复杂性也提高了，同时需要训练更多的数据。

#多层
    def lstm_call():
        cell = tf.nn.rnn_cell.LSTMCell(num_units=hidden_size,reuse=tf.get_variable_scope().reuse)
        return tf.nn.rnn_cell.DropoutWrapper(cell,output_keep_prob=keep_prob)
    mlstm_cell = tf.nn.rnn_cell.MultiRNNCell(cells=[lstm_call() for i in range(layer_num)])
    inint_state = mlstm_cell.zero_state(batch_size,tf.float32)
    output,state = tf.nn.dynamic_rnn(mlstm_cell,inputs=X,initial_state=inint_state)
    output = output[:,-1,:]

1.6 带有其他特性的RNN单元

本节整理自《深入理解TensorFlow》,基本的RN单元，LSTM单元，GRU单元等还可以结合其他特性，从而形成新的RNN单元变种。tensorflow文件中定义的DropoutWrapper,ResidualWrapper,DeviceWrapper,MultiRNNCell等包装器或工具类都继承自RNNCell类，他们分别提供不同的特性。DeviceWrapper比较简单，主要是使某个具体的RNN单元运行在指定的设备上。

1.6.1 DropoutWrapper

该类提供Dropout

2 RNN模型

2.1 PTB-LSTM语言模型

2.2 Seq2Seq模型

2.3 Relational-RNN（attention）

2.4 CRNN

你可能感兴趣的:(深度学习,深度学习)

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
深度学习预备知识 AmazingMQ 深度学习人工智能
1.Tensor张量定义：张量（tensor）表示一个由数值组成的数组，这个数组可能有多个维度（轴）。具有一个轴的张量对应数学上的向量，具有两个轴的张量对应数学上的矩阵，具有两个以上轴的张量目前没有特定的数学名称。importtorch#arange创建一个行向量x，这个行向量包含以0开始的前12个整数。x=torch.arange(12)print("x=",x)#x=tensor([0,1,2
根茎式装配体（RA）作为下一代协同智能范式的理论、架构与应用由数入道人工智能思维框架软件工程智能体
一、引言——范式危机与新大陆的召唤1.1表征主义的黄昏：当前AI协同范式的认知天花板自艾伦·图灵在《计算机器与智能》中播下思想的种子以来，人工智能的漫长征途始终被一个强大而内隐的哲学范式所笼罩——我们称之为“表征主义”（Representationism）。这一范式，无论其外在形态如何演变，从早期的符号逻辑、专家系统，到如今风靡全球的深度学习神经网络，其核心信念从未动摇：智能的核心，在于构建一个关
Manus AI与多语言手写识别
ManusAI与多语言手写识别背景与概述手写识别技术的发展现状与挑战ManusAI的核心技术与应用场景多语言手写识别的市场需求与难点ManusAI的技术架构深度学习在手写识别中的应用多语言支持的模型设计数据预处理与特征提取方法多语言手写识别的关键挑战不同语言字符的多样性处理上下文语义与书写风格适应性低资源语言的训练数据获取解决方案与优化策略迁移学习在多语言任务中的应用端到端模型的优化与轻量化用户反
基于LIDC-IDRI肺结节肺癌数据集的人工智能深度学习分类良性和恶性肺癌（Python 全代码）全流程解析（二）
基于LIDC-IDRI肺结节肺癌数据集的人工智能深度学习分类良性和恶性肺癌（Python全代码）全流程解析（二）1环境配置和数据集预处理1.1环境配置1.1数据集预处理2深度学习模型训练和评估2.1深度学习模型训练2.1深度学习模型评估笑话一则开心一下喽完整代码如下：模型文件如下深度学习模型讲解---待续第一部分内容的传送门第三部分传送门1环境配置和数据集预处理1.1环境配置环境配置建议使用ana
深度学习交互式图像分割技术演进与突破 wang1776866571 深度学习交互式分割深度学习人工智能交互式分割
说明本文为作者读研期间基于交互式图像分割领域公开文献的系统梳理与个人理解总结，所有内容均为原创撰写（ai辅助创作），未直接复制或抄袭他人成果。文中涉及的算法、模型及实验结论均参考自领域内公开发表的学术论文（具体文献见文末参考文献列表）。本文旨在为交互式图像分割领域的学习者提供一份结构化的综述参考，内容涵盖技术演进、核心方法、关键技术优化及应用前景，希望能为相关研究提供启发。摘要：本文系统综述了基于
前沿交叉：Fluent与深度学习驱动的流体力学计算体系 m0_75133639 流体力学深度学习人工智能航空航天 fluent 流体力学材料科学 CFD
基础模块流体力学方程求解1、不可压缩N-S方程数值解法（有限差分/有限元/伪谱法）·Fluent工业级应用：稳态/瞬态流、两相流仿真（圆柱绕流、入水问题）·Tecplot流场可视化与数据导出2、CFD数据的AI预处理·基于PCA/SVD的流场数据降维·特征值分解与时空特征提取深度学习核心3.物理机理嵌入的神经网络架构·物理信息神经网络（PINN）：将N-S方程嵌入损失函数（JAX框架实现）·神经常
如何使用目标检测深度学习框架yolov8训练钢管管道表面缺陷VOC+YOLO格式1159张3类别的检测数据集步骤和流程 FL1623863129 深度学习目标检测深度学习 YOLO
【数据集介绍】数据集中有很多增强图片，大约300张为原图剩余为增强图片数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1159标注数量(xml文件个数)：1159标注数量(txt文件个数)：1159标注类别数：3所在仓库：firc-dataset标注类别名称(注意yo
2025年人工智能、虚拟现实与交互设计国际学术会议学术小八学术人工智能 vr 交互
重要信息官网：www.aivrid.com时间：2025年10月17-19日地点：中国-东莞部分介绍征稿主题包括但不限于：生物特征模式识别机器视觉专家系统深度学习智能搜索自动编程智能控制智能机器人系统组件虚拟现实平台用于VR/AR的AI平台数据和生成、操作、分析和验证浸入式环境和虚拟世界的生成优化和现实的渲染人工智能与用户体验个性化推荐系统情感计算与用户响应虚拟现实与沉浸式技术沉浸式环境设计交互设
机器学习深度学习驱动在光子学设计中的应用与未来【专题培训会议邀您共探科技前沿】软研科技信息与通信信号处理量子计算人工智能
一、背景介绍在智能科技飞速发展的今天，光子学设计与智能算法的结合正成为科研创新的热点。深度学习、机器学习等算法在光子器件的逆向设计、超构表面材料设计、光学神经网络构建等方面展现出巨大潜力。二、会议亮点由北京软研国际信息技术研究院主办的“智能算法驱动的光子学设计与应用”专题培训会议，将深入探讨以下核心内容：光子器件的逆向设计：利用深度学习优化多参数光子器件设计。超构表面与超材料设计：智能算法在新型光
【第三章:神经网络原理详解与Pytorch入门】02.深度学习框架PyTorch入门-(4)Pytorch实战 IT古董人工智能课程深度学习神经网络 pytorch
第三章:神经网络原理详解与Pytorch入门第二部分：深度学习框架PyTorch入门第四节：Pytorch模型构建内容：如何搭建复杂网络以及如何修改模型与保存一、构建复杂神经网络结构在PyTorch中，构建复杂模型通常通过继承nn.Module类，分模块组织层与前向传播逻辑。示例：自定义一个卷积神经网络（CNN）importtorch.nnasnnimporttorch.nn.functional
探秘AI大模型：一键获取深度学习精华-PPT全面解读曹筱习Dwayne
探秘AI大模型：一键获取深度学习精华-PPT全面解读【下载地址】AI大模型PPT资源下载本仓库提供了一个名为“ai大模型ppt”的资源文件下载。该资源文件详细介绍了AI大模型的相关内容，包括但不限于AI大模型的定义、应用场景、技术架构、发展趋势等。通过这份PPT，您可以深入了解AI大模型的核心概念和实际应用，为您的学习和研究提供有力支持项目地址:https://gitcode.com/open-s
人工智能基础知识PPT课件智慧化智能化数字化方案方案解读馆人工智能入门人工智能学习人工智能课件人工智能PPT
人工智能基础知识定义与概念：人工智能是研究、开发用于模拟、延伸和扩展人类智能行为的综合性科学，其目的是让计算机系统具备执行人类智能任务的能力。涉及计算机科学、数学等多学科，研究对象是让系统具备智能，智能包括认知、适应和自主能力等维度。学派与方法学派：有符号主义、联结主义、行为主义等学派，分别从不同角度研究人工智能。方法：包括基于知识、学习和仿生的方法，如专家系统、机器学习、深度学习等。分类与发展分
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要