不牌不改

【机器学习】LSTM 讲解

2. LSTM

2.1. 长期依赖问题

标准 RNN 结构在理论上完全可以实现将最初的信息保留到即使很远的时刻，但是在实践中发现 RNN 会受到短时记忆的影响。如果一条序列足够长，那它们将很难将信息从较早的时刻传送到后面的时刻。因此，如果正在尝试处理一段文本进行预测，RNN 可能从一开始就会遗漏重要信息。比如我们尝试预测 “I grew up in France … I speak fluent French” 这句话的最后一个词 ”French“ 。当前的信息（“I speak fluent”）表明接下来的单词是很可能是语言的名字。但是需要哪种语言，我们就要根据离当前位置很远的 “France” 来确定。这就说明相关信息和当前预测词的位置之间的间隔可能非常大，随着这间隔不断变大，RNN 就会失去学习连接如此远的信息的能力。这就是我们上面提到的 RNN 最致命的缺点。

为了解决这个问题，提出了 LSTM 。

2.2. 网络结构

LSTM 属于 RNN 的扩展模型，二者的区别仅在于每个单元内部结构不同。LSTM 单元结构如下。

其中，黄色矩形表示一层神经网络，包含权重和激活函数，矩形中的符号表明激活函数的类型， $\sigma$ 对应 sigmoid 函数， $\rm tanh$ 对应 tanh 函数；粉色（椭）圆表示逐元素操作，比如粉色（椭）圆中为乘号表明矩阵进行对应元素相乘（点乘）操作， $\rm tanh$ 表明进行逐元素取 tanh 值。

下图展示了 LSTM 单元的完整前向传播过程。

从”遗忘门“、”输入门“和”输出门“，这三个”门“的角度来理解 LSTM 单元。

之所以称之为”门“，是考虑到生活中的”门“存在”开/闭“两种状态。LSTM 单元中的”门“也是存在”开/闭“两种状态，”开“表示全部（绝大部分）信息都可以经过”门“流出，”闭“表示全部（绝大部分）信息都不能经过”门“流出，而是被”门“过滤掉。由于 sigmoid 函数非常适合二分类，所以该函数在 LSTM 单元中起到”门“过滤的作用，用于控制信息是否流出（流出量）。

遗忘门

”遗忘门“决定了前一个单元的状态 $c_{t-1}$ 有多少信息保留到当前单元状态 $c_t$ 中。对应图中过程 $[h_{t-1},x_t]\rightarrow f_t$ 。
输入门

”输入门“决定了当前单元的输入 $x_t$ 有多少信息保存到单元状态 $c_t$ 。对应图中过程 $[h_{t-1},x_t]\rightarrow i_t$ 。
输出门

”输出门“用于控制当前单元的状态 $c_t$ 有多少信息输出到当前输出值 $h_t$ 。对应图中过程 $[h_{t-1},x_t]\rightarrow o_t$ 。

模型单元的思想可以理解为， $h_{t-1},x_t]$ 经过遗忘门确定保留多少前一个单元的信息， $c_{t-1}$ 和 $\sigma(W_{xf}x_t+W_{hf}h_{t-1}+b_f)$ 按位点乘实现筛选出要保留的信息； $\sigma(W_{xi}x_t+W_{hi}h_{t-1}+b_i)$ 和 ${\rm tanh}(W_{xg}x_t+W_{hg}h_{t-1}+b_g)$ 按位点乘实现从外部输入信息 $x_t$ 中筛选出需要保留的信息，过滤到无用信息；将保留的原始信息和保留的外部信息按位相加，得到当前单元包含的信息 $c_t$ ； ${\rm tanh}(c_t)$ 用于将每个单元的信息统一到一定范围内，再与 $\sigma(W_{xo}x_t+W_{ho}h_{t-1}+b_o)$ 按位点乘筛选出当前单元的全部信息中可以用于评估单元优劣的信息 $h_t$ ，对全部 $h_t$ 进一步处理可以得到用于评估模型优劣的损失函数，同时也会直接传入到下一个单元，循环往复。

总结一下，整个流程是分为三个大部分，对应着三个”门“的操作。遗忘门部分筛选有用的内部信息，输入门筛选有用的外部信息，将两部分信息整合，输出门筛选用于评估单元优劣的信息。可以看到，每次的筛选操作都是通过 sigmoid 函数对 $h_{t-1},x_t]$ 的线性映射进行非线性激活完成的。

2.3. 前向传播与反向传播

前向传播

前面已经讲解了。
反向传播

还是以计算图的形式说明反向传播过程。存在如下公式：
$\begin{align} f_t&=\sigma(W_{xf}x_t+W_{hf}h_{t-1}+b_f) \tag{2.1}\\ i_t&=\sigma(W_{xi}x_t+W_{hi}h_{t-1}+b_i) \tag{2.2}\\ g_t&={\rm tanh}(W_{xg}x_t+W_{hg}h_{t-1}+b_g) \tag{2.3}\\ o_t&=\sigma(W_{xo}x_t+W_{ho}h_{t-1}+b_o) \tag{2.4}\\ c_t&=c_{t-1}\odot f_t+g_t\odot i_t \tag{2.5}\\ h_t&={\rm tanh}(c_t)\odot o_t \tag{2.6} \\ L&=\sum loss(h_t,y_t) \tag{2.7} \\ \end{align}$
一个单元的计算图如下。灰色框圈出的是一个单元涉及的计算关系，其他单元都可以类似地画出。

我们引入 $L_t=loss(h_t,y_t)\space (t=1,2,\dots,T)$ ，因此 $L$ 可以表示为 $L=\sum_{t=1}^TL_t$ 。反向传播过程如下。

以计算 $\frac{\partial L}{\partial W_{hf}}$ 为例推导公式，其他参数类似，推导的思路是根据反向传播过程按顺序推导每个结点代表的链式偏导。

考虑最特别的 $T$ 时刻，计算出损失函数（值）关于 $T$ 时刻各个变量的偏导
$\begin{align} \frac{\partial L}{\partial L_T} &\notag \\\notag \\ \frac{\partial L}{\partial h_T} &= \frac{\partial L}{\partial L_T}\frac{\partial L_T}{\partial h_T} \notag\\\notag \\ \frac{\partial L}{\partial o_T} &= \frac{\partial L}{\partial h_T} \frac{\partial h_T}{\partial o_T} \notag \\\notag \\ \frac{\partial L}{\partial c_T} &= \frac{\partial L}{\partial h_T} \frac{\partial h_T}{\partial c_T} \notag \\\notag \\ \frac{\partial L}{\partial f_T}&=\frac{\partial L}{\partial c_T}\frac{\partial c_T}{\partial f_T} \notag\\\notag \\ \frac{\partial L}{\partial i_T}&=\frac{\partial L}{\partial c_T}\frac{\partial c_T}{\partial i_T} \notag\\\notag \\ \frac{\partial L}{\partial g_T}&=\frac{\partial L}{\partial c_T}\frac{\partial c_T}{\partial g_T} \notag\\\notag \\ \frac{\partial L}{\partial W_{hf}^{\left\langle T \right\rangle}} &= \frac{\partial L}{\partial f_T} \frac{\partial f_T}{\partial W_{hf}} + \frac{\partial L}{\partial i_T} \frac{\partial i_T}{\partial W_{hf}}+\frac{\partial L}{\partial g_T} \frac{\partial g_T}{\partial W_{hf}} \notag \end{align}$

其中， $\frac{\partial L}{\partial W_{hf}^{\left\langle T \right\rangle}}$ 表示 $T$ 时刻对损失函数（值）关于 $W_{hf}$ 偏导的贡献，满足 $\frac{\partial L}{\partial W_{hf}} = \sum\limits_{t=1}^T \frac{\partial L}{\partial W_{hf}^{\left\langle t \right\rangle}}$ 。

根据式 $(2.1)\sim (2.7)$ 将上面各式计算出来。 $T$ 时刻各个变量的偏导总结如下。
$\begin{align} \frac{\partial L}{\partial L_T} &=1\notag \\\notag \\ \frac{\partial L}{\partial h_T} &= \frac{\partial L_T}{\partial h_T} \notag\\\notag \\ \frac{\partial L}{\partial o_T} &= \frac{\partial L_T}{\partial h_T} {\rm tanh}(c_T) \notag \\\notag \\ \frac{\partial L}{\partial c_T} &= \frac{\partial L_T}{\partial h_T}o_T{\rm tanh'(·)} \notag \\\notag \\ \frac{\partial L}{\partial f_T}&=\frac{\partial L_T}{\partial h_T}o_T {\rm tanh'(·)}c_{t-1} \notag\\\notag \\ \frac{\partial L}{\partial i_T}&=\frac{\partial L_T}{\partial h_T}o_T {\rm tanh'(·)}g_T \notag\\\notag \\ \frac{\partial L}{\partial g_T}&=\frac{\partial L_T}{\partial h_T}o_T {\rm tanh'(·)}i_T \notag\\\notag \\ \frac{\partial L}{\partial W_{hf}^{\left\langle T \right\rangle}} &= \frac{\partial L}{\partial f_T} \frac{\partial f_T}{\partial W_{hf}} =\frac{\partial L}{\partial h_T}o_T {\rm tanh'(·)}c_{T-1}\sigma'(·) h_{T-1} \notag \end{align}$

当 $t=1,2,\dots,T-1$ 时，计算出损失函数（值）关于 $t$ 时刻刻个变量的偏导
$\begin{align} \frac{\partial L}{\partial L_t} &\notag \\\notag \\ \frac{\partial L}{\partial h_t} &= \frac{\partial L}{\partial L_t}\frac{\partial L_t}{\partial h_t} + \frac{\partial L}{\partial o_{t+1}}\frac{\partial o_{t+1}}{\partial h_t} +\frac{\partial L}{\partial f_{t+1}} \frac{\partial f_{t+1}}{\partial h_{t}} + \frac{\partial L}{\partial i_{t+1}} \frac{\partial i_{t+1}}{\partial h_{t}}+\frac{\partial L}{\partial g_{t+1}} \frac{\partial g_{t+1}}{\partial h_{t}} \notag\\\notag \\ \frac{\partial L}{\partial o_t} &= \frac{\partial L}{\partial h_t} \frac{\partial h_t}{\partial o_t} \notag \\\notag \\ \frac{\partial L}{\partial c_t} &= \frac{\partial L}{\partial h_t} \frac{\partial h_t}{\partial c_t} + \frac{\partial L}{\partial c_{t+1}} \frac{\partial c_{t+1}}{\partial c_t} \notag \\\notag \\ \frac{\partial L}{\partial f_t}&=\frac{\partial L}{\partial c_t}\frac{\partial c_t}{\partial f_t} \notag\\\notag \\ \frac{\partial L}{\partial i_t}&=\frac{\partial L}{\partial c_t}\frac{\partial c_t}{\partial i_t} \notag\\\notag \\ \frac{\partial L}{\partial g_t}&=\frac{\partial L}{\partial c_t}\frac{\partial c_t}{\partial g_t} \notag\\\notag \\ \frac{\partial L}{\partial W_{hf}^{\left\langle t \right\rangle}} &= \frac{\partial L}{\partial f_t} \frac{\partial f_t}{\partial W_{hf}} + \frac{\partial L}{\partial i_t} \frac{\partial i_t}{\partial W_{hf}}+\frac{\partial L}{\partial g_t} \frac{\partial g_t}{\partial W_{hf}} \notag \end{align}$
根据式 $(2.1)\sim (2.7)$ 将上面各式计算出来。 $t\space (t=1,2,\dots,T-1)$ 时刻各个变量的偏导总结如下（部分等式由于展开过长而不代入展开）。
$\begin{align} \frac{\partial L}{\partial L_t} &=1\notag \\\notag \\ \frac{\partial L}{\partial h_t} &= \frac{\partial L_t}{\partial h_t} + \frac{\partial L_{t+1}}{\partial h_{t+1}}{\rm tanh}(c_{t+1})\sigma'(·)W_{ho} +\frac{\partial L_{t+1}}{\partial h_{t+1}} o_{t+1}{\rm tanh'(·)}c_t\sigma'(·)W_{hf} + \frac{\partial L_{t+1}}{\partial h_{t+1}}o_{t+1}{\rm tanh'(·)}g_{t+1}\sigma'(·)W_{hi}+\frac{\partial L_{t+1}}{\partial h_{t+1}}o_{t+1}{\rm tanh'(·)}i_{t+1}\sigma'(·)W_{hg} \notag\\\notag \\ \frac{\partial L}{\partial o_t} &= \frac{\partial L}{\partial h_t} {\rm tanh} (c_t) \notag \\\notag \\ \frac{\partial L}{\partial c_t} &= \frac{\partial L}{\partial h_t} o_t{\rm tanh'(·)} + \frac{\partial L}{\partial c_{t+1}} f_{t+1} \tag{*} \\\notag \\ \frac{\partial L}{\partial f_t}&=\frac{\partial L}{\partial c_t}c_{t-1} \notag\\\notag \\ \frac{\partial L}{\partial i_t}&=\frac{\partial L}{\partial c_t}g_t \notag\\\notag \\ \frac{\partial L}{\partial g_t}&=\frac{\partial L}{\partial c_t}i_t \notag\\\notag \\ \frac{\partial L}{\partial W_{hf}^{\left\langle t \right\rangle}} &=\frac{\partial L}{\partial f_t} \frac{\partial f_t}{\partial W_{hf}}=\frac{\partial L}{\partial f_t} h_{t-1}=\frac{\partial L}{\partial c_t}c_{t-1}\sigma'(·) h_{t-1} \tag{**} \end{align}$
上面式 $(*)$ 没有计算出 $\frac{\partial L}{\partial c_t}$ 的通项公式，只是给出了递推公式，对其归纳后得
$\frac{\partial L}{\partial c_t}=\sum_{t=1}^T\frac{\partial L}{\partial h_i}o_i{\rm tanh'}(c_i)\left( 1+\prod_{j=2}^i f_j\right)$
进而计算出式 $(* *)$
$\frac{\partial L}{\partial W_{hf}^{\left\langle t \right\rangle}}= c_{t-1}\sigma'(W_{xf}x_t+W_{hf}h_{t-1}+b_f)h_{t-1}\sum_{t=1}^T\frac{\partial L}{\partial h_i}o_i{\rm tanh'}(c_i)\left( 1+\prod_{j=2}^i f_j\right)$
最后将全部的梯度贡献值相加，得
$\frac{\partial L}{\partial W_{hf}} = \frac{\partial L}{\partial h_T}o_T {\rm tanh'}(c_T)c_{T-1}\sigma'(W_{xf}x_T+W_{hf}h_{T-1}+b_f) h_{T-1} + \sum_{t=1}^{T-1} c_{t-1}\sigma'(W_{xf}x_t+W_{hf}h_{t-1}+b_f)h_{t-1}\sum_{t=1}^T\frac{\partial L}{\partial h_i}o_i{\rm tanh'}(c_i)\left( 1+\prod_{j=2}^i f_j\right)$
也可以不体现函数的参数，得到更简洁的形式
$\frac{\partial L}{\partial W_{hf}} = \frac{\partial L}{\partial h_T}o_T {\rm tanh'}(·)c_{T-1}\sigma'(·) h_{T-1} + \sum_{t=1}^{T-1} c_{t-1}\sigma'(·)h_{t-1}\sum_{t=1}^T\frac{\partial L}{\partial h_i}o_i{\rm tanh'}(·)\left( 1+\prod_{j=2}^i f_j\right)$

由于无法将 $T$ 时刻的梯度贡献值与其他时刻的梯度贡献值统一表示，因此，对应上式中加号左右的两部分。

上面计算出了 $\frac{\partial L}{\partial W_{hf}}$ ，类似地也可以计算出 $L$ 对 $W_{xf}$ 、 $W_{hi}$ 、 $W_{xi}$ 、 $W_{hg}$ 、 $W_{xg}$ 、 $W_{ho}$ 、 $W_{xo}$ 、 $b_f$ 、 $b_i$ 、 $b_g$ 、 $b_o$ 。

以下在讨论引入 $L_t$ 的原因，选读。

不同于 RNN 反向传播公式的推导，RNN 并没有特意地引入 $L_t$ ，而 LSTM 反向传播公式的推导中却需要引入。我们不妨先不引入该符号，当计算 $\frac{\partial L}{\partial h_t}\space (t=1,2,\dots,T-1)$ 时，我们可以找到两条从 $L$ 到 $h_t$ 的路径，分别是 $L\rightarrow h_t$ 和 $L\rightarrow h_{t+1}\rightarrow o_{t+1}\rightarrow h_t$ ，因此 $\frac{\partial L}{\partial h_t}$ 可以表示为 $\frac{\partial L}{\partial h_t}=\frac{\partial L}{\partial h_t}+\frac{\partial L}{\partial h_{t+1}}\frac{\partial h_{t+1}}{\partial o_{t+1}}\frac{\partial o_{t+1}}{\partial h_t}$ ，观察等式两边会发现，这显然不合理。

出现这种情况的原因很好理解。 $\frac{\partial L}{\partial h_t}$ 只是一个符号，表示全部的从 $L$ 到 $h_t$ 的路径（直接到达或经过其他任意结点中转到达）对应的链式求导之和； $\frac{\partial o_{t+1}}{\partial h_t}$ 也只是符号，表达全部的从 $o_{t+1}$ 到 $h_t$ 的路径对应的链式求导之和，不过由于只存在一条路径，这使得 $\frac{\partial o_{t+1}}{\partial h_t}$ 能够唯一地代表一条路径，所以我们也就不需要继续将 $\frac{\partial o_{t+1}}{\partial h_t}$ 化为偏导连乘的形式了；类似的道理， $\frac{\partial L}{\partial h_{t+1}}\frac{\partial h_{t+1}}{\partial o_{t+1}}$ 可以由 $\frac{\partial L}{\partial o_{t+1}}$ 代替，即 $\frac{\partial L}{\partial o_{t+1}}=\frac{\partial L}{\partial h_{t+1}}\frac{\partial h_{t+1}}{\partial o_{t+1}}$ ，这正是因为从 $L$ 到 $o_{t+1}$ 的路径唯一。综上，只有路径唯一时才能用符号 $\frac{\partial}{\partial}$ 表示完整的链式偏导。

重新考虑不引入符号 $L_t$ 出现的问题，等式左侧的符号 $\frac{\partial L}{\partial h_t}$ 对应了多条从 $L$ 到 $h_t$ 的路径，等式右侧需要详细地将每条路径对应的链式偏导表达出来。如果想要唯一地表达路径 $L\rightarrow h_t$ （直接到达）则必须要引入另一个中间结点 $L_t$ ，从而构成新的路径 $L\rightarrow L_t\rightarrow h_t$ ，对应的链式偏导为 $\frac{\partial L}{\partial L_t}\frac{\partial L_t}{\partial h_t}$ 。

形象地理解一下，我从家走到学校告诉同学：“放学的时候小心从我家到学校路上的狗”，同学傻了“那么多道，我怎么知道是哪条有狗啊！”，我细说“从我家先到布达拉宫，再到天安门，再到曹县，最后到学校的那条路上有狗；还有，从我家直通学校的路上也有，你可要小心啊！”，同学一听既害怕又感激，于是决定坐飞机回家。

从这个例子中可以看出 $\lceil$ “家 $\rightarrow \dots\rightarrow$ 学校”有狗 $\rfloor\Leftrightarrow \lceil$ “家 $\rightarrow$ 布达拉宫 $\rightarrow$ 天安门 $\rightarrow$ 曹县 $\rightarrow$ 学校”有狗，并且“家 $\rightarrow$ 学校”有狗 $\rfloor$ ，对应于等式的左侧和等式的右侧。

缓解所谓的“梯度消失”

令 $k_i=\frac{\partial L}{\partial h_i}$ ，将处理后的式 $(* *)$ 展开，得
$\frac{\partial L}{\partial W_{hf}^{\left\langle t \right\rangle}}= c_{t-1}\sigma'(·)h_{t-1} \left[ (k_1o_1)+(k_2o_2f_2) + (k_3o_3f_3f_2) + \dots + (k_To_Tf_T\dots f_3f_2) \right]$
其中， $f_i$ 为 sigmoid 函数，通过监督训练，这些函数的取值将起到“门”的作用，即非 $0$ 即 $1$ 。上式中显然不存在激活函数导数连乘的形式，这降低了梯度消失发生的可能，另外还通过多个 sigmoid 函数连乘实现对远距离的信息进行筛选，弥补了 RNN 无法解决长期依赖的问题。

2.4. 训练过程

根据上面的动态传播过程图我们知道，每个 LSTM 单元的四个神经网络（结构图中的黄色部件）的输入都是向量 $h_{t-1}$ 和 $x_t$ 经过拼接（concatenate）后的向量，输出到下一个单元的向量为 $h_t$ ，当然，这里无需考虑 $c_{t-1}$ ，因为 $c_{t-1}$ 不经过神经网络，也就不存在维度变化。假设 $h_{t-1}$ 是 $\rm hidden\_size$ 维向量， $x_t$ 是 $\rm x\_size$ 维向量，每个神经网络的输出均为 $\rm hidden\_size$ 维向量，相当于将 $\rm hidden\_size+x\_size$ 维向量映射到 $\rm hidden\_size$ 维向量，所以每个神经网络对应的参数可以表示为 $(\rm hidden\_size+x\_size,\rm hidden\_size)$ 的矩阵。四个神经网络，将 $\rm hidden\_size+x\_size$ 维向量映射到 $\rm 4\times hidden\_size$ 维向量，一个 LSTM 单元完整的参数矩阵为 $(\rm hidden\_size+x\_size,4\times hidden\_size)$ 。由于 LSTM 每个单元共享参数矩阵，所以整个 LSTM 的参数矩阵即为 $(\rm hidden\_size+x\_size,4\times hidden\_size)$ 。注意，将 $4$ 个神经网络对应的参数矩阵合并只是为了进行矩阵乘法时更简便，所以计算完之后还是要拆开，再进行不同的运算。

举个简单的例子，训练 $\rm batch\_size=64$ 的一组语句，每个语句 $20$ 个词，每个词向量 $200$ 维，隐藏层向量 $h_t$ $128$ 维， $c_t$ 与 $h_t$ 同维。LSTM 的输入张量为 $(64, 20, 200)$ ，LSTM 的参数矩阵为 $(128+200,4\times 128)$ 。对于某一个 LSTM 单元来说，输入为 $(64, 200)$ 的矩阵，和 $h_t$ 拼接得到 $(64, 200 + 128)$ ，输入矩阵与参数矩阵相乘得到 $(64,4\times 128)$ ，即每个神经网络的输出为 $(64, 128)$ 。神经网络的输出会进行一些不影响矩阵维度的位操作，所以该单元输出的 $c_t$ 和 $h_t$ 仍然为 $(64, 128)$ 的矩阵。每个单元都重复进行相同的操作， $20$ 次操作（时间步）后，最终全部单元的输出为 $(20, 64, 128)$ 的矩阵。

如此我们得到了 LSTM 的输出矩阵为 $\rm(time\_step, batch\_size, hidden\_size)$ 。根据下游任务的不同，会定义不同的损失函数，比如分类任务，那么我们仅会选择最后一个时刻的这批样本的交叉熵作为损失函数；当然，对于其他的一些任务，也可以选择对全部时刻的交叉熵进行加和或求均值作为最终的损失函数。

这里我们仅讲解将 LSTM 最后一个单元（时刻）输出结果的交叉熵作为损失函数，其他情况类似。假设全部单词数为 $\rm vocabulary\_size$ ，我们需要先定义一个可训练的矩阵，大小为 $\rm (hidden\_size, vocabulary\_size)$ ，作用是将 LSTM 最后一个单元的输出为 $\rm (batch\_size, hidden\_size)$ 的矩阵映射到大小为 $\rm (batch\_size, vocabulary\_size)$ 的矩阵上。这样，矩阵的每一行代表一个样本（单词），按行 softmax 后每行均为概率分布。每个样本根据对应的独热“标签”计算对应的交叉熵，再将 $\rm batch\_size$ 个交叉熵加和或者求均值作为目标函数。采用梯度下降等方法对模型参数进行更新。

注意区别 softmax 和交叉熵。softmax 只是一种将一般向量化为同维概率分布的手法，而交叉熵则是一种将两组概率分布变为标量的计算。

LSTM 作为语言模型，任务是根据输入的若干个单词预测下一个单词。因此，每个 LSTM 的“标签”是该条输入语句当前单词的下一个单词对应的独热编码。对于单词处于语句末尾的情况，一般会在句末引入特殊的语句结束符号；还有一些其他的与具体实现有关的特殊情况，在这里不详细展开。

REF

[1] Understanding LSTM Networks - colah’s blog

[2] LSTM神经网络详解 - CSDN博客

[3] 详解LSTM - 知乎 - 仅参考图片

[4] 《神经网络的梯度推导与代码验证》之LSTM的前向传播和反向梯度推导 - 博客园

[5] 4.RNN梯度消失回顾（公式推导）- bilibili

[6] LSTM如何来避免梯度弥散和梯度爆炸？ - 知乎 - 用户Quokka的回答

[7] LSTM如何解决RNN带来的梯度消失问题 - CSDN博客

[8] LSTM训练过程与参数解读 - CSDN

[9] 使用LSTM实现语言模型 - 知乎

[10] 关于LSTM的输入和训练过程的理解 - 博客园

[11] tf.nn.dynamic_rnn的输出outputs和state含义 - CSDN

[12] tf.nn.softmax_cross_entropy_with_logits函数 - CSDN

[13] LSTM每一个时间步都有一个损失函数吗？ - 知乎

AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
英伟达常用GPU参数速查表，含B300..... Ai17316391579 深度学习服务器人工智能机器学习服务器电脑计算机视觉深度学习神经网络
英伟达常用GPU参数速查表，收藏备用：含RTX5090、RTX4090D、L40、L20、A100、A800、H100、H800、H20、H200、B200、B300、GB300.....专注于高性能计算人工智能细分领域kyfwq001#5090##4090##英伟达“新核弹”B200发布##英伟达##英伟达B300##GPU##服务器##显卡##英伟达H800/A800芯片将禁售#
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
端到端的NLP框架（Haystack） deepdata_cn NLP 自然语言处理人工智能
Haystack是一个端到端的NLP框架，专门用于构建基于文档的问答系统，是实现RAG的理想选择。它提供了数据预处理、文档存储、检索和生成等一系列组件，支持多种语言模型和检索器。提供可视化界面，方便用户进行配置和调试；支持多模态数据，可处理文本、图像等多种类型的数据；具有可扩展性，可根据需求添加自定义组件。2020年在自然语言处理技术快速发展，对高效、易用且灵活的端到端NLP框架需求日益增长的背景
客服机器人怎么才能精准的回答用户问题？玩人工智能的辣条哥 AI面试机器人客服机器人
环境：客服机器人问题描述：客服机器人怎么才能精准的回答用户问题？解决方案：客服机器人要精准回答用户问题，需综合技术、数据和用户体验等多方面因素。以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对
人工智能与网络信息技术的深度融合鸭鸭鸭进京赶烤学术会议人工智能 AI编程 ai 机器人计算机视觉网络计算机网络
在当今时代，人工智能（AI）和网络信息技术正以前所未有的速度推动着社会变革。从通用人工智能（AGI）到具身智能的普及，AI不仅实现了技术上的飞跃，也在各个行业展现出巨大的应用潜力。随着技术的不断迭代，我们迎来了许多创新应用，例如AI在电子信息技术中的应用，通过算法优化与升级，显著提高了处理效率和准确性。网络信息技术同样在飞速发展。面向2030年的未来网络发展趋势表明，网络将支撑万亿级、人机物、全时
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
探索AI模型的巅峰之战：ChatGPT、DeepSeek与Grok 3，谁才是最强？温暖阳光阿斌人工智能 chatgpt
近年来，人工智能领域正处于一场高速迭代的革命中。大型语言模型（LLMs）如ChatGPT、DeepSeek和Grok3纷纷亮相，各展所长，为人们带来了前所未有的体验。在这场"谁是最强"的竞争中，每一方都展现出了令人惊叹的能力和独特的优势。然而，这些模型之间的差异和特点，究竟是什么？它们各自的优势在哪里？又有哪些隐藏的短板？本文将带您深入了解这三位AI巨头的亮点与争议，共同探讨它们在AI领域的位置，
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
强化学习中策略网络模型设计与优化技巧数字扫地僧计算机视觉深度学习
I.引言强化学习（ReinforcementLearning,RL）是一种通过与环境交互，学习如何采取行动以最大化累积奖励的机器学习方法。策略网络（PolicyNetwork）是强化学习中一种重要的模型，它直接输出动作的概率分布或具体的动作。本篇博客将深入探讨策略网络的设计原则、优化技巧，并结合具体实例展示其应用。II.策略网络的基本概念A.策略网络的定义策略网络是一种神经网络，它接受当前状态作为
使用DeepSeek R1大模型编写迅投 QMT 的量化交易 Python 代码 wtsolutions qmt量化交易 python qmt deepseek 量化交易代码生成
随着人工智能技术的迅猛发展，利用AI工具提升工作效率已成为现代开发者的重要手段。在使用deepseek官方网页生成迅投QMT代码的时候，deepseek给出的代码是xtquant代码，也就是miniqmt代码，并不是我们传统意义上说的大QMT可用的代码。因此，我们需要自建一个知识库，让deepseek根据我的知识库里面的知识，去帮我生成大QMT可用的交易代码。一、建立迅投QMT的知识库建立迅投QM
GPU架构分类大明者省架构
一、NVIDIA的GPU架构NVIDIA是全球领先的GPU生产商，其GPU架构在图形渲染、高性能计算和人工智能等领域具有广泛应用。NVIDIA的GPU架构经历了多次迭代，以下是一些重要的架构：1.Tesla（特斯拉）架构（2006年发布）特点：NVIDIA推出的首个通用GPU计算架构，支持使用C语言进行GPU编程，标志着GPU开始从专用图形处理器转变为通用数据并行处理器。性能：具有128个流处理器
自然语言处理（5）—— 中文分词隐私无忧人工智能 #自然语言处理自然语言处理中文分词人工智能
中文分词的基本原理及实现1.什么是词2.基本原理3.发展趋势：多数场景无需显式分词信息处理的目标是使用计算机能够理解和产生自然语言。而自然语言理解和产生的前提是对语言能够做出全面的解析。汉语词汇是语言中能够独立运用的最小的语言单位，是语言中的原子结构。由于中文缺乏类似英文的空格分隔，分词的准确性直接影响后续任务（如机器翻译、情感分析）的效果。因此，对中文进行分词就显得至关重要。中文分词（Chine
芯片的未来发展趋势 iccnewer
2024年，该行业将专注于AI/ML、RISC-V、量子、安全等发展趋势。今年年初，大多数人从未听说过生成式人工智能。现在整个世界都在竞相利用它，而这仅仅是个开始。量子计算、6G、智能基础设施等新市场领域专用处理正在加速对更快、更高效、更多数据的需求。与每隔几年等待下一个工艺节点的日子相比，未来几年的事件将与电话或汽车的引入一样重要。但可能不会只有一种创新技术，将会有很多技术一起以一种将让科技界惊
基于Python编程语言实现“机器学习”，用于车牌识别项目我的sun&shine Python python 机器学习计算机视觉
基于Python的验证码识别研究与实现1.摘要验证码的主要目的是区分人类和计算机，用来防止自动化脚本程序对网站的一些恶意行为，目前绝大部分网站都利用验证码来阻止恶意脚本程序的入侵。验证码的自动识别对于减少自动登录时长，识别难以识别的验证码图片有着重要的作用。对验证码图像进行灰度化、二值化、去离散噪声、字符分割、归一化、特征提取、训练和字符识别等过程可以实现验证码自动识别。首先将原图片进行灰度化处理
如何使用JSON输出解析器解析语言模型的输出 vaidfl json 语言模型 easyui python
在现代AI应用中，让语言模型返回结构化的数据是一个重要的能力，特别是在需要进一步处理或集成的时候。本文将深入探讨如何利用JsonOutputParser来解析语言模型的JSON输出。技术背景介绍随着语言模型的普及，许多应用场景需要从自然语言处理任务中获取结构化的输出。针对这一需求，输出解析器应运而生，它能够帮助我们定义JSON模式，通过提示语言模型生成符合该模式的输出，并将其解析为JSON格式。核
使用LocalAI进行文本嵌入的实战指南 bavDHAUO python
技术背景介绍文本嵌入是一种将文本片段转换为高维向量的技术，可以用于自然语言处理任务中的相似性计算、信息检索等应用。LocalAI提供了一种本地化的嵌入解决方案，允许开发者在本地环境中运行和测试嵌入模型。通过在本地部署LocalAI服务，您可以避免依赖外部API，享受更快的响应速度和更好的数据隐私。核心原理解析LocalAIEmbedding类主要负责与本地运行的LocalAI服务通信，进行文本嵌入
Python程序设计（入门） xyyykx python 开发语言
目录一丶Python概述二丶Python数据类型三丶常用的进制四丶字符串型五丶程序控制结构六丶组合数据类型一丶Python概述Python是一种高级编程语言，由GuidovanRossum于1991年开发并发布。它具有简洁、易读、易学的语法特点，被广泛应用于多个领域，包括软件开发、数据科学、人工智能、网络编程等。以下是Python的一些主要特点和优势：简单易学：Python的语法简洁明了，易于理解
LLM：软件测试的颠覆性力量 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM：软件测试的颠覆性力量关键词：大语言模型（LLM）、软件测试、人工智能、测试自动化、测试效率、质量保证、测试革新1.背景介绍在当今快速发展的软件行业中，测试一直是确保产品质量的关键环节。随着人工智能技术的飞速进步，特别是大语言模型（LargeLanguageModels，简称LLM）的出现，软件测试领域正经历着前所未有的变革。LLM凭借其强大的自然语言处理能力和广泛的知识储备，正在重塑我们对
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略一个处女座的程序猿资深文章(前沿/经验/创新)DataScience ML 数据科学数据科学的生命周期机器学习
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略导读：本文章是博主在数据科学和机器学习领域，先后实战过几百个应用案例之后的精心总结，应该是完全覆盖了数据科学的整个生命周期及其各个阶段的要点。其中机器学习领域六大阶段更是在整个数据科学生命周期中扮演着极其重要的角色。同时，因为涉及到博主出书中出版社要求在
深入了解盘古大模型：技术、应用与未来 Hardess-god Literature review 人工智能
随着人工智能技术的迅猛发展，预训练大模型已成为AI领域最前沿、最热门的研究方向之一。近年来，中国自主研发的大模型之一——盘古模型（PanGuModel）逐渐进入公众视野，凭借其强大的性能和广泛的应用前景，引发了行业内外的广泛关注。什么是盘古大模型？盘古大模型是华为公司联合多家科研机构共同研发的超大规模预训练语言模型。该模型以中文数据为主进行训练，旨在推动中文自然语言处理（NLP）以及跨模态应用的技
【人工智能之大模型】阐述生成式语言模型的工作机理...（二） 985小水博一枚呀大大大模型知识点人工智能语言模型自然语言处理机器学习神经网络
【人工智能之大模型】阐述生成式语言模型的工作机理…（二）【人工智能之大模型】阐述生成式语言模型的工作机理…（二）文章目录【人工智能之大模型】阐述生成式语言模型的工作机理...（二）前言4.代码逐行解释TransformerBlock类初始化前向传播GenerativeLM类初始化前向传播推理示例测试生成5.总结欢迎宝子们点赞、关注、收藏！欢迎宝子们批评指正！祝所有的硕博生都能遇到好的导师！好的审稿
人工智能 - 通用 AI Agent 之 LangManus、Manus、OpenManus 和 OWL 技术选型天机️灵韵具身智能人工智能人工智能具身智能智能体
一、核心项目概览1.Manus（闭源通用AIAgent）定位：全球首个全流程自动化通用AIAgent，GAIA基准测试SOTA水平。核心能力：全流程自动化：从任务规划（如撰写报告）到执行（代码生成、表格制作）的端到端处理。智能纠错机制：基于沙箱环境的实时错误反思与调整（类似CodeAct技术）。云端依赖：需联网运行，集成浏览器操作、信息检索等工具。局限性：闭源且采用邀请制，二手市场邀请码溢价至数万
知识图谱中NLP新技术魔王阿卡纳兹知识图谱入门大数据治理与分析知识图谱自然语言处理人工智能
知识图谱与自然语言处理（NLP）的结合是当前人工智能领域的前沿方向，其技术发展呈现多维度融合与场景深化的特点。以下从核心技术突破、应用场景创新及未来趋势三个层面，系统梳理知识图谱中NLP的最新进展：一、核心技术突破基于预训练模型的图谱构建与增强预训练语言模型与知识嵌入融合：以BERT、KEPLER为代表的模型通过联合优化知识嵌入（KE）和语言建模目标，将知识图谱中的结构化知识融入预训练过程，显著提
掌握ChatGPT写代码的秘诀：开发者的完整指南酷酷的崽798 机器学习 chatgpt
文章目录前言：如何利用ChatGPT来写代码：一个深度指南1.ChatGPT的基本功能概述2.利用ChatGPT辅助代码编写的好处3.ChatGPT支持的编程语言4.如何向ChatGPT提问以获取最佳结果5.实际应用案例6.ChatGPT的局限性及其解决方法7.关于隐私和安全性的注意事项8.未来展望结论前言：如何利用ChatGPT来写代码：一个深度指南近年来，人工智能技术取得了飞跃性的进展，尤其是
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓