寒小阳

深度学习与自然语言处理(3)_斯坦福cs224d Lecture 3

原文作者：Rohit Mundra, Richard Socher
原文翻译：@熊杰([email protected]) && @王昱森([email protected]) && @范筑军老师( [email protected]) && @OWEN([email protected])
内容校正：寒小阳 && 龙心尘
时间：2016年6月
出处：http://blog.csdn.net/han_xiaoyang/article/details/51711134
http://blog.csdn.net/longxinchen_ml/article/details/51711172

说明：本文为斯坦福大学CS224d课程的中文版内容笔记，已得到斯坦福大学课程@Richard Socher教授的授权翻译与发表

课堂笔记：第3课

关键词：神经网络，正向计算，反向传播，神经元，最大化间隔损失，梯度检验，参数的哈维初始化，学习速率， ADAGRAD（自适应梯度法）

这是斯坦福CS224d深度学习与自然语言处理的第3课，这节课先会介绍单层和多层神经网络和它们在机器学习分类任务中的应用，接着介绍如何利用反向传播算法来训练这些神经网络模型（在这个方法中，我们将利用偏导数的链式法则来层层更新神经元参数）。在给出神经网络以及这些算法严谨的数学定义后，介绍了训练神经网络的一些实用的技巧和窍门，比如，神经元（非线性激励），梯度检验，参数的Xavier初始化方法，学习速率，ADAGRAD（自适应梯度法）等。最后，我们在神经网络模型的基础上来建立语言模型

我们发现notes最后语言模型这个部分被略去了，回头ppt里面扒出来补充给大家

1 神经网络：基础

我们在前面的课程中提到，由于大部分数据并非线性可分，线性分类模型在这些数据上的分类效果略显尴尬，而非线性的分类模型通常能取得更好的效果。如下图1所示，神经网络模型就是这样一类具备非线性决策边界的分类器。从图上我们可以看到神经网络生成了非线性判定边界，来对2类样本做分类，那咱们一起来看看，它是怎么做到的呢。

图 1 ︰在图上可以看到神经网络产生的非线性判定边界，更好地把2类样本点分隔开了。这就是神经网络的强大之处（不纠结原始样本的分布状况）。

一点小历史︰神经网络是受生物学启发的分类器，因此它也常被称为人工神经网络（ANN），以区别于生物学上的神经网络。事实上，人类的神经网络复杂性高很多，也比ANN具有更强大的能力，所以即使名字很接近，两者之间倒没有那么多的相似之处。

1.1 神经元

简单说来，神经元其实就是一个取 n 个输入，并产生单一输出的通用计算单元。每层神经元通过不同的参数(也称权重)产生不同的输出结果（通常情况下同一层神经元的输入值是相同的，只是权重不同）。比较常见的神经元(激励函数)是”Sigmoid函数”，也叫作”二项逻辑回归”单元。这种神经元，对于输入的 n 维向量，通过与 n 维的权重向量 w 和一个偏差标量 b 做组合运算，输出一个标量 a （咱们也把它叫做标量激活结果），具体的运算过程如下公式所示：

a = 1 1 + e x p ( - ( w T x + b ) )

其中 w 是权重， b 是偏移量， x 是输入

为了运算的一致性和精简性，我们也可以把权重向量和偏差变量写到一个 n+1 维的向量里，得到上式的一个等价形式：

a = 1 1 + e x p ( - [ w T b ] \cdot [ x 1 ] )

你们看出来了，就是把偏移量放作权重的一部分

下图2是这种神经元的一个直观一点的解释：

图 2 ︰这就是所谓的”二元逻辑回归”神经元，输入向量 x 的各个元素被 w 中对应的权重缩放后求和，加上偏移量 b (数学上可以看做对对输入x做线性的变换)之后放进”Sigmond函数”。

一点小总结：神经元呢，可以看做神经网络的基本组成功能单元，有多种多样功能(就是对输入做不同非线性变换)的神经元，它们共同去帮助整个神经网络形成非线性切分的能力。

1.2 单层神经元

刚才看完1个神经元的情况了，也知道它在做的非线性变换(输入到输出的运算)是什么，现在咱们拓展一下，看看对于一组输入 x ，一层神经元（其实就是多个神经元）的变换和处理情况，基本的结构，就如下图3所示。

图 3 ︰传说中神经网络的一层（多个”二元逻辑回归”神经元），它们的输入是一致的，都是x。

我们分别用 {w(1),⋯,w(m)} ， {b1⋯,bm} 和 {a1⋯,am} 来表示 m 个神经元的权重向量，偏移量以及激励输出，则有一下的结果：

a 1 = 1 1 + e x p ( w ( 1 ) T x + b 1 ) )

⋮

a m = 1 1 + e x p ( w ( m ) T x + b m ) )

式子多了看着有点乱，咱们设定一下以下的数学标记，简化简化在神经网络中的公式：

σ (z) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ 1 1 + e x p ( z 1 ) ⋮ 1 1 + e x p ( z m ) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

b = ⎡ ⎣ ⎢ ⎢ ⎢ b 1 ⋮ b m ⎤ ⎦ ⎥ ⎥ ⎥ \in ℝ m

W = ⎡ ⎣ ⎢ ⎢ ⎢ - w (1) T ⋮ - w (m) T - - ⎤ ⎦ ⎥ ⎥ ⎥ \in ℝ m \times n

其中，

z = W x + b

这样咱们的二元逻辑回归的激励输出就可以写成：

⎡ ⎣ ⎢ ⎢ ⎢ a 1 ⋮ a m ⎤ ⎦ ⎥ ⎥ ⎥ = σ (z) = σ (W x + b)

那这些激励输出到底是干嘛的呢，有什么物理含义？一种理解方式是，每个神经元都是对输入向量一个不同角度的处理加工，提取输入向量的某一部分信息(比如图像数据中的纹理、颜色、轮廓，或者文本信息中的词性、时态等等)。然后这些信息会被用到分类任务中去，为决策提供依据。

1.3 前向计算

上一节咱们讨论了如何将一个向量 x∈ℝn 输给神经网络中的一层（一组( m 个)二元回归神经元）进而得到他们的激励输出 a∈ℝm 。也简单提了一下这么做的意义，为了加深理解，咱们还是用命名实体识别（NER）的例子来直观解释一下这个过程吧。看这样一个例子：

“Museums in Paris are amazing”

我们要来判断这里的中心词”Paris”是不是个命名实体。在这种情况下，我们不止要知道这个词窗内哪些词向量出现过，可能也需要知道他们之间的相互作用。比如说，可能只有在”Museums”出现在第1个位置，”in”出现在第二个位置的时候，Paris才是命名实体。如果你直接把词向量丢给Softmax函数，这种非线性的决策是很难做到的。所以我们需要用1.2中讨论的方法对输入的变量进行非线性的处理加工(神经元产出非线性激励输出)，再把这些中间层的产物输入到Softmax函数中去。这样我们可以用另一个矩阵 U∈ℝm+1 ，与激励输出结果运算生成得分（当然，这里是未归一化的），从而进一步用于分类任务：

s = U T a = U T f (W x + b)

公式中的

f 是前面提到的做非线性变化的激励函数(激活函数)。

维度分析： 如果我们用4维词向量表示这些词，且用一个 5 词窗口作为输入（就像上面这个例子），那输入的变量就是 x∈ℝ20 . 如果在隐藏层中使用8个sigmoid神经元，并且由其激励输出生成1个得分，我们就有 W∈ℝ20，b∈ℝ8，U∈ℝ8×1，s∈ℝ 。

整个运算的过程（逐级的）大概是如下这个样子：
z=Wx+b
a=σ(z)
s=UTa

图4: 这张图描述了一个前向计算网络如何运算得到输出值

1.4 最大化间隔目标函数

跟大多数机器学习模型一样，神经网络也需要一个优化目标，一个用来衡量模型好坏的度量。优化算法在做的事情呢，通常说来就是找到一组权重，来最优化目标或者最小化误差。这里我们讨论一个比较流行的度量，叫做最大化间隔目标函数。直观的理解就是我们要保证被正确分类的样本分数要高于错误分类的样本得分。

继续用之前的例子，如果我们把一个正确标记的词窗 “Museums in Paris are amazing”(这里Paris是命名实体)的得分记做 s ，而错误标记的词窗“Not all Museums in Paris”(这里Paris不是命名实体)的得分记作 sc (c表示这个词窗”corrupt”了)

于是，我们的目标函数就是要最大化 (s−sc) 或者最小化（sc−s）。但是，我们要对这个目标函数稍作修改，让他只有在 sc>s=>（sc−s）>0 的时候才计算这个函数的值。因为当正确标记的词窗得分比错误标记的词窗得分高的时候，我们认为是满足要求的，并没有误差，我们只关心错误标记的词窗比正确标记的词窗得分高了多少，它代表了误差的程度。于是，我们的目标函数在 sc>s 的时候取值（sc−s），其余时候取值为 0 现在，优化目标变成：

m i n i m i z e J = m a x (s c - s, 0)

但是这个优化函数还不稳妥，因为它缺乏一个用来保证安全划分的间隔。我们希望那些被正确标记的词窗得分不仅要比错误标记的词窗得分高，还希望至少高出一个取值为正的间隔

Δ 。换句话说，我们希望在

（s−sc<Δ）的时候就开始计算误差值，而不是等到

（s−sc<0）。

因此，我们修改优化目标为︰

m i n i m i z e J = m a x (Δ + s c - s, 0)

我们可以把这个 Δ 的取值定为1，在学习的过程中，模型其他的权重参数自动会进行相应的缩放，而并不会影响最终分类模型的精度。如果你想了解更多细节的话，可以去读一下支持向量机中关于函数间隔和几何间隔(functional and geometric margins)的内容。所以最后我们定义了以下形式的目标函数，作为在训练集中所有词窗上求最优化的目标：

m i n i m i z e J = m a x (1 + s c - s, 0)

1.5 反向传播训练法（未向量化的逐元素形式）

在这一节中我们来讨论一下，当1.4节中的目标函数 J 取值为正的时候，怎么来训练模型中的各个参数。如果这个目标函数的取值是0，那我们已经不再需要更新参数的取值了。一般来讲，我们通过可以通过梯度下降法来更新参数（或者一些变种，像随机梯度下降/SGD）。这样就需要每个参数的梯度的信息来实现下面的更新过程：

θ (t + 1) = θ (t) - α Δ θ (t) J

反向传播这种方法利用导数的链式法则来计算损失函数（正向计算求得）在每个模型参数上的梯度。为了进一步理解上述内容，我们来看下图5所示的这样一个简单的网络：

图5:这是一个 4-2-1的神经网络，第 k 层神经网络上的第 j 个神经元上的输入值是 z(k)j ，输出的激励输出值为 a(k)j

这里我们讨论的是一个只有1个隐藏层，1个单独的输出单元的神经网络。我们先来统一以下标记：

xi 是神经网络的输入。

s 是神经网络的输出。

神经网络的每一层（包括输入层和输出层）都有神经元来进行输入和输出。第 k 层神经网络上的第 j 个神经元上的输入值是 z(k)j ，输出的激励输出值为 a(k)j 。

我们把反向传播到 z(k)j 上的误差记为 δ(k)j 。

第1层指的是输入层而不是第一个隐藏层。对于输入层，我们有 xj=z(1)j=a(1)j 。

W(k) 是把 k 层的激活子输出值映射到 k+1 层输入值的转换矩阵。于是，把这个一般化的标记用在1.3节例子中就有了 W(1)=W 以及 W(1)=U 。

一起来看看反向传播吧： 假设目标函数 J=(1+sc−s) 取正值，我们希望更新权重参数 W(1)14 (如图5及图6所示)，我们注意到这里 W(1)14 只在计算 z(2)1 和 a(2)1 时出现。这一点对于理解反向传播很重要-参数的反向传播梯度只被那些在正向计算中用到过这个参数的值所影响。 a(2)1 在之后的正向计算中和 W(2)1 相乘进而参与到分类得分的计算中。我们从最大化边界损失的形式看到：

\partial J \partial s = - \partial J \partial s c = - 1

于是，为了简化计算，我们这里可以只考虑

∂J∂W(1)ij 。于是

∂J∂s=−∂J∂sc=−1
这样，我们可以对

∂s∂W(1)ij 化简如下：

∂s∂W(1)ij=∂W(2)a(2)∂W(1)ij=∂W(2)ia(2)i∂W(1)ij=W(2)i∂a(2)i∂W(1)ij

⟹W(2)i∂a(2)i∂W(1)ij=W(2)i∂a(2)i∂z(2)i∂z(2)i∂W(1)ij

=W(2)if(z(2)i)∂z(2)i∂z(2)i∂W(1)ij

=W(2)if′(z(2)i)∂z(2)i∂W(1)ij

=W(2)if′(z(2)i)∂∂W(1)ij(b(1)i+a(1)1W(1)i1+a(1)2W(1)i2+a(1)3W(1)i3+a(1)4W(1)i4)

=W(2)if′(z(2)i)∂∂W(1)ij(b(1)i+∑ka(1)kW(1)ik)

=W(2)if′(z(2)i)a(1)j

=δ(2)i⋅a(1)j

我们可以看到这个梯度最终可以简化为 δ(2)i⋅a(1)j 这样一个形式。这里 δ(2)i 就是反向逆推到第 2 层上第 i 个神经元的误差。 a(1)j 则与 Wij 相乘后输入到第 2 层上第 i 个神经元的计算中。

译者注：这里所谓的反向传播误差 δ(k)i 其实就是最终的目标函数对于第 k 层上第 i 个激励输出值 z(k)i 的导数。当我们要求目标函数关于 Wk−1ij 的导数时，因为第 k 层上只有 z(k)i 的计算涉及到 Wk−1ij ，所以可以把 z(k)i 写成关于 Wk−1ij 的函数，接着利用导数的链式法则，得到目标函数关于 Wk−1ij 的导数。误差 δ(k) 从 k 层传播到 k−1 层的过程就等价于求目标函数高 1 阶的导数，这一步同样可以由偏导数的链式法则得到。

图6:这个子网络描述的是当我们更新 W(1)ij 时所用到的神经网络的有关部分

我们以图6为例子，从”误差分配/分散”的角度来诠释一下反向传播。比如说我们如果要更新 W(1)14 ：

我们从 a(3)1 上的误差信息 1 开始进行逆向传播。
我们把这个误差乘以把 z(3)1 映射到 a(3)1 的神经元的局部梯度上。在这里这个梯度恰好也等于1 (有兴趣可以自己去算一下)。所以我们得到 δ(3)1=1 。
于是，这个误差信息 1 已经传到了 z(3)1 上。我们需要把这个误差分配到上一层 a(2)1 上去。(这里我们不关心 2 层上的其他激励输出，因为他们的计算不涉及到 W(1)14 )
分配到 a(2)1 上的误差为 (z(3)1 上的误差 =δ(3)1)×W(2)1 。于是传播到 a(2)1 上的误差为 W(2)1 。这里记作 W(2)11 比较合适
像第2步一样，我们通过把 a(2)1 上的误差乘以把 z(2)1 映射到 a(2)i 的神经元的局部梯度上，来把误差传播到 z(2)1 上。这里这个梯度是 f′(z(2)1) 。
于是 z(2)1 上的误差就等于 f′(z(2)1)W(2)1 。记作 δ(2)1 。
最后，我们要把这个误差乘以参与前向计算的 a(4)1 从而把误差信息分配到 W(1)14 上。
于是，目标函数关于 Wk−1ij 的导数就有了 a(4)1f′(z(2)1)W(2)1 这样的形式。

我们可以看到，我们从哪个角度出发，最后得到的结果都是一样的。所以对于反向传播我们既可以从链式法则的角度来理解，也可以从误差分配/分散的角度来理解。

偏移量的更新 偏移量（如 b(1)1 ）在计算下一层神经元输入值 z(2)1 时，与其他权重参数在数学形式上是等价的，只不过更他相乘的是常量1。所以，对于第 k 层上第 i 个神经元偏移量的梯度就是 δ(k)i 。比方说，如果我们在上面的例子中，要更新的是 b(1)1 而不是 W(1)14 ，那它的梯度就是 f′(z(2)1)W(2)1 。

从 δ(k) 到 δ(k−1) 反向传播的一般化步骤：

我们从 z(k)i 上的误差信息 δ(k)i （即第 k 层的第 i 个神经元）开始，见图7。
我们通过把 δ(k)i 乘以路径上的权重 W(k−1)ij 来把这个误差反向传播到上一层的激励输出 a(k−1)j 上。
于是，激励输出 a(k−1)j 收到了误差信息 δ(k)iW(k−1)ij 。
不过 a(k−1)j 在前向计算中，参与到下一层中多个神经元的计算中。比如 k 层上第 m 个神经元上的误差信息也将通过类似第3步中的方式传递到 a(k−1)j 上。
这样， a(k−1)j 收到的误差信息就会变成 δ(k)iW(k−1)ij+δ(k)mW(k−1)mj 。
因为第 k 层上有很多个神经元， a(k−1)j 收到的误差信息可以写成一般化的形式 ∑iδ(k)iW(k−1)ij
这样 a(k−1)j 就收到关于它的所有误差信息了，于是我们通过乘以这个神经元上的局部梯度 f′(z(k−1)j) 来把误差信息传播到 z(k−1)j 上。
最终，到达 z(k−1)j 上的误差信息就是 z(k−1)j∑iδ(k)iW(k−1)ij ,记作 δ(k−1)j 。

图7:从 δ(k) 到 δ(k−1) 反向传播

1.6 反向传播训练（向量化的形式）

我们前面介绍了如何计算模型中每个参数的梯度。这里我们要讨论如何把这些计算向量化及矩阵化(高效很多)。
对于权重参数 W(k)ij ，我们知道它的误差梯度为 δ(k+1)ia(k)j ，这里 W(k) 即为把 a(k) 映射到 z(k+1) 上的矩阵。于是我们可以把误差信息对于整个矩阵 W(k) 的梯度表示成以下形式:

Δ W (k) = ⎡ ⎣ ⎢ ⎢ ⎢ δ (k + 1) 1 a (k) 1 δ (k + 1) 2 a (k) 1 ⋮ δ (k + 1) 1 a (k) 2 δ (k + 1) 2 a (k) 2 ⋮ \dots \dots ⋱ ⎤ ⎦ ⎥ ⎥ ⎥ = δ (k + 1) a (k) T

于是，我们可以把这个矩阵形式的梯度写成(从下一层)反向传播过来的误差和（从这一层）参与到前向计算中的激励输出的外积。

图 8︰从 δ(k) 到 δ(k−1) 的误差传播

咱们接着看如何向量化的计算 δ(k) 。参考上面的图8， δ(k)j=f′(z(k)j)∑iδ(k+1)iW(k)ij 。
这可以很容易推广到矩阵形式
δ(k)=f′(z(k))∘(W(k)Tδ(k+1))
在上式中 ∘ 表示元素对应位相乘（即Hadamard积 ∘:ℝN×ℝN→ℝN ）

计算效率: 我们知道，在很多科学计算软件中，像Matlab，Python（用NumPy/SciPy 包），向量化计算的效率远高于对每个元素逐个进行计算。所以，才实际操作中，我们尽可能的采用向量化的方式来训练参数。同时，我们在反向传播中应该尽量避免不必要的重复计算。比如说 δ(k) 的计算直接和 δ(k+1) 相关。于是我们要保证在我们用 δ(k+1) 更新 W(k) 的时候，我们存下 δ(k+1) 的值用来下一步计算 δ(k) 。以此类推，我们在 (k−1),…,(1) 上我们重复这样的步骤，这种递归过程将使整个反向传播更加有效。

2 神经网络：技巧和窍门

前面的部分讨论了神经网络的技术原理，理论和实践结合起来才能发挥大作用，现在咱们介绍一些神经网络在实际应用中常见的技巧和窍门。

2.1 梯度检验

我们已经介绍了如何用微积分计算神经网络模型中参数的误差梯度。现在我们介绍另一种不使用误差反向传播，而近似估计梯度的方法：

f' (θ) \approx J ( θ ( i + ) ) - J ( θ ( i - ) ) 2 ϵ

其中， θ(i+)=θ+ϵ×ei

从微分的定义来看，上述公式显然是正确的，但是怎么将其应用到求解误差梯度呢？对于一个给定的数据集，当我们正向扰动参数 θ 的第i个元素时(可以简单理解成 θ 加上一个极小的正数)，咱们基于前向传导可以计算出误差项 J(θ(i+)) 。同理，当我们负向扰动参数 θ 的第i个元素时，咱们基于前向传导可以计算出新的误差项 J(θ(i－)) 。因此，其实通过做两次前向运算，我们就可以根据上面的公式估计出任何给定参数的梯度。当然了，其实只做一次前向传导所需要的运算量也不小了，所以在估计梯度时，这种方法比较耗时，但是，在用于验证反向传播的实现时，这种方法很赞，也用得很多。

梯度检验的简单实现可以参照下述方式：

def eval_numerical_gradient(f, x):
  """
  a naive implementation of numerical gradient of f at x
  - f should be a function that takes a single argument
  - x is the point (numpy array) to evaluate the gradient
  at
  """
  fx = f(x) # evaluate function value at original point
  grad = np.zeros(x.shape)
  h = 0.00001
  # iterate over all indexes in x
  it = np.nditer(x, flags=[’multi_index’],
                   op_flags=[’readwrite’])
  while not it.finished:
    # evaluate function at x+h
    ix = it.multi_index
    old_value = x[ix]
    x[ix] = old_value + h # increment by h
    fxh = f(x) # evaluate f(x + h)
    x[ix] = old_value # restore to previous value (very important!)
  # compute the partial derivative
  grad[ix] = (fxh - fx) / h # the slope
  it.iternext() # step to next dimension
return grad

以下为页边注

梯度检验：其实一般情况下，解析梯度是一个更快的梯度求解方法，不过容易出错，而梯度检验是个很好的比较解析梯度和数值型梯度的方法。数值型梯度可以用下述公式去计算：

f' (θ) \approx J ( θ ( i + ) ) - J ( θ ( i - ) ) 2 ϵ

其中， J(θ(i+)) 和 J(θ(i−)) 可以通过正向和负向微调 θ 后两次前向传导来计算得到，这种方法的代码实现可以参阅Snippet 2.1。

以上为页边注

2.2 正则化

像大多数分类器一样，神经网络也容易产生过拟合，这会导致其在验证集和测试集上的结果并不一定那么理想。为了解决这个问题，简单一点咱们可以应用L2正则化，加上正则化项的损失函数 JR 可以通过下述公式来计算：

J R = J + λ \sum i = 1 L ∥ W (i) ∥ F

在上述公式中， ∥W(i)∥F 是矩阵 W(i) 的F范数（frobenius norm）， λ 是用于在加权和目标函数中进行正则化的相对权重。加上这个正则化项，意在通过作用到损失的平方来惩罚那些在数值上特别大的权重（译者注：也就是让权重的分配更均匀一些）。这样一来，目标函数（也就是分类器）的随意度(译者注：也就是可用于拟合的复杂度)就被降低了，约束了拟合函数的假设空间，因此减少了发生过拟合的可能性。施加这样一种约束条件可以用先验贝叶斯思想来理解，即最优的权重分配是所有权重都接近0。你想知道有多接近？对啦，这正是 λ 所控制的——大的 λ 会倾向于使所有权重都趋于0。值得注意的是，偏移量 b 不会被正则化，也不会被计算入上述的损失项（试着想想为什么？）。

2.3 神经单元

前面的内容里，我们已经讨论过了包含sigmoid神经元（sigmoidal neurons）来实现非线性分类的神经网络算法，然而在许多应用中，使用其他激励(激活)函数（activation functions）可以设计出更好的神经网络。这里列举了一些常用选择的函数表达式和梯度定义，它们是可以和上文讨论过的sigmoid函数（sigmoidal functions）互相替代的。

Sigmoid：这是通常拿来做例子的函数，我们已经讨论过它，其激励(激活)函数 σ 为：

σ (z) = 1 1 + e x p ( - z )

其中， σ(z)∈(0,1)

σ(z) 的梯度为：

σ' (z) = - e x p ( - z ) 1 + e x p ( - z ) = σ (z) (1 - σ (z))

以下为页边注

图9：Sigmoid非线性的响应

以上为页边注

Tanh：tanh函数是除了sigmoid函数之外的另一种选择，在实际中，它的收敛速度更快。tanh函数与sigmoid函数最主要的不同是tanh函数的输出结果在-1和1之间，而sigmoid函数的输出结果在0和1之间。

t a n h (z) = e x p ( z ) － e x p ( - z ) e x p ( z ) ＋ e x p ( - z ) ＝ 2 σ (2 z) － 1

其中， tanh(z)∈(－1,1)
tanh(z) 的梯度为：

t a n h' (z) = 1 - (e x p ( z ) － e x p ( - z ) e x p ( z ) ＋ e x p ( - z )) 2 = 1 - t a n h 2 (z)

以下为页边注

图10： tanh 非线性的响应

以上为页边注

Hard Tanh：hard tanh(硬双曲余弦正切)函数在有些时候要优于tanh函数，因为它在计算上更为简便。然而当z大于1时，hard tanh函数会在数值上形成饱和（译者注：即恒等于1）。hard tanh的激活函数为：

h a r d t a n h (z) = ⎧ ⎩ ⎨ ⎪ ⎪ - 1 z 1 : z < -1 : -1 \leq z \leq 1 : z > 1

其微分也可以用分段函数来表达：

h a r d t a n h' (z) = {10 : -1 \leq z \leq 1 : otherwise

以下为页边注

图11：hard tanh非线性的响应

以上为页边注

Soft Sign：Soft Sign函数是另一个可以被用来替代Tanh函数的非线性函数，因为它也不会像硬限幅函数（hard clipped functions）那样过早饱和。其函数表达式为：

s o f t s i g n (z) = z 1 + ∣ z ∣

其微分表达式为：

s o f t s i g n' (z) = s g n ( z ) ( 1 + z ) 2

其中 sgn() 是符号函数，即根据 z 的符号返回＋1 或－1 。

以下为页边注

图12：soft sign非线性的响应

以上为页边注

ReLU：ReLU（修正线性单元，Rectiﬁed Linear Unit）函数是激活函数的一个流行选择，因为即使对特别大的 z ，它也不会饱和，并且已经发现它在计算机视觉应用中非常好用。其函数表达式为：

r e c t (z) = m a x (z, 0)

其微分表达式为：

r e c t' (z) = {10 : z>0 : otherwise

以下为页边注

图13：ReLU非线性的响应

以上为页边注

Leaky ReLU：对于非正数的 z ，传统设计上的ReLU单元不会回传误差——而leaky ReLU修正了这一点，使得 z 是负数时，很小的误差也会反向传播回传回去。其函数表达式为：

l e a k y (z) = m a x (z, k \times z)

其中， 0<k<1
因此其微分表达式可以被表示为：

l e a k y' (z) = {1 k : z>0 : otherwise

以下为页边注

图14：leaky ReLU非线性的响应

以上为页边注

2.4 Xavier参数初始化

在《理解训练深层前馈神经网络的困难（Understanding the Difficulty of Training Deep Feedforward Neural Networks）》(2010)一文中，Xavier等人研究了不同权重和偏差的初始化方案对训练动力（training dynamics）的影响。实证研究结果表明，对于sigmoid和tanh激活单元，当矩阵的权重 W∈ℝn(l+1)×n(l) 以均匀分布在以下值域范围内被随机初始化时，有着更低的错误率和更快的收敛速度：

W \sim U [- 6 n ( l ) + n ( l + 1 ) ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt, 6 n ( l ) + n ( l + 1 ) ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt]

其中， n(l) 是 W 关联的输入单元的数量（fan-in）， n(l＋1) 是 W 关联的输出单元的数量（fan-out）。

在这种参数初始化方案里，偏差项( b )被初始化为0。这种方法的目的是维持跨层的激活方差和反向传播梯度方差。如果不初始化，梯度方差（包含大量修正信息）一般会随层间反向传播而很快衰减。

2.5 学习速率

模型最优化的过程中，参数更新的速度可以通过学习速率来控制。比如下面的梯度下降公式中， α 是学习速率：

θ n e w = θ o l d - α \nabla θ J t (θ)

看到公式以后你可能会认为 α 越大收敛速度会越快，事实上并不是这样哦。学习速率过大甚至可能会导致损失函数的不收敛，因为有时候因为太激进，参数的迭代步伐太大，一不小心跨过了凸优化的极小值，如图15所示。在非凸模型中（我们大多数时候遇到的），大学习速率的结果是不可预测的，但出现损失函数不收敛的可能性是非常高的。所以一定要慎重哦。

以下为页边注

图15：从上图可以看出，有时候学习率太大，更新的参数 w2 反倒跨过了最低点，朝着误差增大的方向挪动了。

以上为页边注

那怎么办呢？一个简单的方案就是，初始化一个比较小的学习速率，谨慎地在参数空间内迭代和调整以避免模型不收敛。同时，我们还可以固定模型中所有参数的学习速率，而不是为模型中所有参数设定不同的学习速率。

深度学习系统训练阶段通常最耗时耗资源，一些研究也试图应用一些新的方法来设置学习速率。例如，Ronan Collobert通过取神经元 n(l) 输入单元数的平方根的倒数来把权重 Wij （ W∈ℝn(l+1)×n(l) ）的学习速率进行标准化。另一种方法是允许学习速率随着时间而减小，如：

α (t) = α 0 τ m a x ( t , τ )

在上述方案中， α0 是一个可调参数，代表起始学习速率。 τ 也是一个可调参数，代表学习速率应该开始降低的时间。实践中，这种方法相当有效。下个部分，我们会讨论另一种方法，即不需要手动调节学习速率的自适应梯度下降法。

2.6 使用AdaGrad进行次梯度优化

AdaGrad是标准随机梯度下降法（SGD）的一种实现，但是有一个关键的区别：每个参数的学习速率是不同的。参数的学习速率取决于该参数梯度更新的历史情况，更新的历史越稀疏，就应该使用更大的学习速率加快更新。换句话说，那些在过去未被更新的参数更有可能在现在获得更高的学习速率。其形式如下：

θ t, i = θ t - 1, i - α \sum t τ = 1 g 2 τ , i ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt g t, i

其中， gt,i=∂∂θtiJt(θ)

对应上述公式我们可以看到，在这种算法中，如果梯度历史的方均根（RMS）非常低，学习速率会比较高。算法的实现如下：

# Assume the gradient dx and parameter vector x cache += dx**2
x += - learning_rate * dx / np.sqrt(cache + 1e-8)

你可能感兴趣的:(深度学习与自然语言处理,深度学习与自然语言处理,自然语言处理,深度学习,斯坦福课程,反向传播,参数初始化)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
linux中sdl的使用教程,sdl使用入门 Melissa Corvinus linux中sdl的使用教程
本文通过一个简单示例讲解SDL的基本使用流程。示例中展示一个窗口，窗口里面有个随机颜色快随机移动。当我们鼠标点击关闭按钮时间窗口关闭。基本步骤如下：1.初始化SDL并创建一个窗口。SDL_Init()初始化SDL_CreateWindow()创建窗口2.纹理渲染存储RGB和存储纹理的区别：比如一个从左到右由红色渐变到蓝色的矩形，用存储RGB的话就需要把矩形中每个点的具体颜色值存储下来；而纹理只是一
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day17笔记-高阶函数 ~在杰难逃~ Python 笔记 python 开发语言 pycharm 数据分析
高阶函数【重点掌握】函数的本质：函数是一个变量，函数名是一个变量名，一个函数可以作为另一个函数的参数或返回值使用如果A函数作为B函数的参数，B函数调用完成之后，会得到一个结果，则B函数被称为高阶函数常用的高阶函数：map(),reduce(),filter(),sorted()1.map()map(func,iterable)，返回值是一个iterator【容器，迭代器】func:函数iterab
MYSQL面试系列-04 king01299 面试 mysql 面试
MYSQL面试系列-0417.关于redolog和binlog的刷盘机制、redolog、undolog作用、GTID是做什么的？innodb_flush_log_at_trx_commit及sync_binlog参数意义双117.1innodb_flush_log_at_trx_commit该变量定义了InnoDB在每次事务提交时，如何处理未刷入（flush）的重做日志信息（redolog）。它
【JS】执行时长(100分) |思路参考+代码解析（C++） l939035548 JS 算法数据结构 c++
题目为了充分发挥GPU算力，需要尽可能多的将任务交给GPU执行，现在有一个任务数组，数组元素表示在这1秒内新增的任务个数且每秒都有新增任务。假设GPU最多一次执行n个任务，一次执行耗时1秒，在保证GPU不空闲情况下，最少需要多长时间执行完成。题目输入第一个参数为GPU一次最多执行的任务个数，取值范围[1,10000]第二个参数为任务数组长度，取值范围[1,10000]第三个参数为任务数组，数字范围
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Rust基础知识 GRKF15 rust 开发语言后端
1.Rust语言简介1.1基础语法变量声明：let关键字用于声明变量，可以指定或不指定类型，如leta=10;和letmutc=30i32;。函数定义：使用fn关键字定义函数，并指定参数类型及返回类型，如fnadd(i:i32,j:i32)->i32{i+j}。控制流：包括if、else等，控制语句后需要使用;来结束语句。1.2数据类型整数类型：i8、i16、i32、i64、i128，以及无符号的
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
SpringBlade dict-biz/list 接口 SQL 注入漏洞文章永久免费只为良心 oracle 数据库
SpringBladedict-biz/list接口SQL注入漏洞POC:构造请求包查看返回包你的网址/api/blade-system/dict-biz/list?updatexml(1,concat(0x7e,md5(1),0x7e),1)=1漏洞概述在SpringBlade框架中，如果dict-biz/list接口的后台处理逻辑没有正确地对用户输入进行过滤或参数化查询（PreparedSta
2021-07-31 比峰
七月的最后一天，过了今天，就是八月，心脏在颤抖……昨天两点半才睡，一直在以两倍的语速的听之前的课程，虽然隔得时间不长，但是很多知识点已经忘了差不多了，为了让自己能够掌握的稍微全面一点，还是磨刀不误砍柴工的比较好。正因为晚上睡得晚，今天一上午的状态都不好，也可能因为上午都是待在家里，所以多数时间自己是在补觉。既然太累，那就睡觉吧，总比浪费时间的好。下午到咖啡馆做题，一道差错更正一下子让自己的实力暴露
Linux sh命令 fengyehongWorld Linux linux
目录一.基本语法二.选项2.1-c字符串中读取内容，并执行2.1.1基本用法2.1.2获取当前目录下失效的超链接2.2-x每个命令执行之前，将其打印出来2.3结合Here文档使用一.基本语法⏹Linux和Unix系统中用于执行shell脚本或运行命令的命令。sh[选项][脚本文件][参数...]⏹选项-c：从字符串中读取内容，并执行。-x：在每个命令执行之前，将其打印出来。-s：从标准流中读取内容
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
2023-08-08 2023梦启支教团张牧泽
学汉字历史，行传统书法——中国矿业大学梦启支教团梦启三班开展书法文化课7月20日上午8时，中国矿业大学梦启支教团在贵州省金沙县西洛街道彩虹小学开展了“书法文化”课程。该课程意在向孩子们传授汉字演变的相关知识，围绕书法发展历史讲解不同时期的字形字体特点。此课程由梦启支教团成员王耀民讲授，梦启三班全体成员参加。中国文字的发展有数千年的历史，从早期雏形的象形文字到殷商时期的甲骨文、金文，再到西周、秦朝的
今日有感，坚持分享第913天，2019.07.13 ZAF峰回路转
本周是假日里最忙碌的一周，连续四天晚上的课程，让我感觉到身体明显透支。昨天晚上读书会结束回到家，已经是十点半之后啦，忽然感觉身体不舒服，勉强支撑着洗漱完毕，没等上床休息，强烈的不适感警告我该吃药啦！感谢老公半夜到医院給我抓了药，今天早上当我对老公表达谢意的时候，老公说，不用感谢，我不是一直都是这样做的吗？多少年啦，今天竟然还谢谢！老公说的没错，可是以前总感觉那是他应该做的，如今感觉到，身边有一个在
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
趁吾身未老逍遥书生111
趁吾身未老池非2020年，一场突如其来的新冠脑炎疫情，打破了原有的状态。工作与生活的轨迹发生了不确定的变化。01因为隔离防疫，正常的教学不能进行，线上网课成为教学的新形式，年过五十的我面对新的教学形式有些应不暇。只得退而求次，不再负责高考班级的课程。这样，就不用上网课做直播了。感觉很轻松很闲的同时，也感觉到了英雄迟暮。不得不承认，老了。该交班了。因为不能出门，整天呆在家里，一开始还很兴奋，终于可以
Python神器！WEB自动化测试集成工具 DrissionPage 亚丁号 python 开发语言
一、前言用requests做数据采集面对要登录的网站时，要分析数据包、JS源码，构造复杂的请求，往往还要应付验证码、JS混淆、签名参数等反爬手段，门槛较高。若数据是由JS计算生成的，还须重现计算过程，体验不好，开发效率不高。使用浏览器，可以很大程度上绕过这些坑，但浏览器运行效率不高。因此，这个库设计初衷，是将它们合而为一，能够在不同须要时切换相应模式，并提供一种人性化的使用方法，提高开发和运行效率
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s