yaoqiang2011

深度学习与自然语言处理(3)_斯坦福cs224d Lecture 3

原文作者：Rohit Mundra, Richard Socher
原文翻译：@熊杰([email protected]) && @王昱森([email protected]) && @范筑军老师( [email protected]) && @OWEN([email protected])
内容校正：寒小阳 && 龙心尘
时间：2016年6月
出处：http://blog.csdn.net/han_xiaoyang/article/details/51711134
http://blog.csdn.net/longxinchen_ml/article/details/51711172

说明：本文为斯坦福大学CS224d课程的中文版内容笔记，已得到斯坦福大学课程@Richard Socher教授的授权翻译与发表

课堂笔记：第3课

关键词：神经网络，正向计算，反向传播，神经元，最大化间隔损失，梯度检验，参数的哈维初始化，学习速率， ADAGRAD（自适应梯度法）

这是斯坦福CS224d深度学习与自然语言处理的第3课，这节课先会介绍单层和多层神经网络和它们在机器学习分类任务中的应用，接着介绍如何利用反向传播算法来训练这些神经网络模型（在这个方法中，我们将利用偏导数的链式法则来层层更新神经元参数）。在给出神经网络以及这些算法严谨的数学定义后，介绍了训练神经网络的一些实用的技巧和窍门，比如，神经元（非线性激励），梯度检验，参数的Xavier初始化方法，学习速率，ADAGRAD（自适应梯度法）等。最后，我们在神经网络模型的基础上来建立语言模型

我们发现notes最后语言模型这个部分被略去了，回头ppt里面扒出来补充给大家

1 神经网络：基础

我们在前面的课程中提到，由于大部分数据并非线性可分，线性分类模型在这些数据上的分类效果略显尴尬，而非线性的分类模型通常能取得更好的效果。如下图1所示，神经网络模型就是这样一类具备非线性决策边界的分类器。从图上我们可以看到神经网络生成了非线性判定边界，来对2类样本做分类，那咱们一起来看看，它是怎么做到的呢。

图 1 ︰在图上可以看到神经网络产生的非线性判定边界，更好地把2类样本点分隔开了。这就是神经网络的强大之处（不纠结原始样本的分布状况）。

一点小历史︰神经网络是受生物学启发的分类器，因此它也常被称为人工神经网络（ANN），以区别于生物学上的神经网络。事实上，人类的神经网络复杂性高很多，也比ANN具有更强大的能力，所以即使名字很接近，两者之间倒没有那么多的相似之处。

1.1 神经元

简单说来，神经元其实就是一个取 n 个输入，并产生单一输出的通用计算单元。每层神经元通过不同的参数(也称权重)产生不同的输出结果（通常情况下同一层神经元的输入值是相同的，只是权重不同）。比较常见的神经元(激励函数)是”Sigmoid函数”，也叫作”二项逻辑回归”单元。这种神经元，对于输入的 n 维向量，通过与 n 维的权重向量 w 和一个偏差标量 b 做组合运算，输出一个标量 a （咱们也把它叫做标量激活结果），具体的运算过程如下公式所示：

a = 1 1 + e x p ( - ( w T x + b ) )

其中 w 是权重， b 是偏移量， x 是输入

为了运算的一致性和精简性，我们也可以把权重向量和偏差变量写到一个 n+1 维的向量里，得到上式的一个等价形式：

a = 1 1 + e x p ( - [ w T b ] \cdot [ x 1 ] )

你们看出来了，就是把偏移量放作权重的一部分

下图2是这种神经元的一个直观一点的解释：

深度学习与自然语言处理(3)_斯坦福cs224d Lecture 3_第1张图片

图 2 ︰这就是所谓的”二元逻辑回归”神经元，输入向量 x 的各个元素被 w 中对应的权重缩放后求和，加上偏移量 b (数学上可以看做对对输入x做线性的变换)之后放进”Sigmond函数”。

一点小总结：神经元呢，可以看做神经网络的基本组成功能单元，有多种多样功能(就是对输入做不同非线性变换)的神经元，它们共同去帮助整个神经网络形成非线性切分的能力。

1.2 单层神经元

刚才看完1个神经元的情况了，也知道它在做的非线性变换(输入到输出的运算)是什么，现在咱们拓展一下，看看对于一组输入 x ，一层神经元（其实就是多个神经元）的变换和处理情况，基本的结构，就如下图3所示。

深度学习与自然语言处理(3)_斯坦福cs224d Lecture 3_第2张图片

图 3 ︰传说中神经网络的一层（多个”二元逻辑回归”神经元），它们的输入是一致的，都是x。

我们分别用 {w(1),⋯,w(m)} ， {b1⋯,bm} 和 {a1⋯,am} 来表示 m 个神经元的权重向量，偏移量以及激励输出，则有一下的结果：

a 1 = 1 1 + e x p ( w ( 1 ) T x + b 1 ) )

⋮

a m = 1 1 + e x p ( w ( m ) T x + b m ) )

式子多了看着有点乱，咱们设定一下以下的数学标记，简化简化在神经网络中的公式：

σ (z) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ 1 1 + e x p ( z 1 ) ⋮ 1 1 + e x p ( z m ) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

b = ⎡ ⎣ ⎢ ⎢ ⎢ b 1 ⋮ b m ⎤ ⎦ ⎥ ⎥ ⎥ \in ℝ m

W = ⎡ ⎣ ⎢ ⎢ ⎢ - w (1) T ⋮ - w (m) T - - ⎤ ⎦ ⎥ ⎥ ⎥ \in ℝ m \times n

其中，

z = W x + b

这样咱们的二元逻辑回归的激励输出就可以写成：

⎡ ⎣ ⎢ ⎢ ⎢ a 1 ⋮ a m ⎤ ⎦ ⎥ ⎥ ⎥ = σ (z) = σ (W x + b)

那这些激励输出到底是干嘛的呢，有什么物理含义？一种理解方式是，每个神经元都是对输入向量一个不同角度的处理加工，提取输入向量的某一部分信息(比如图像数据中的纹理、颜色、轮廓，或者文本信息中的词性、时态等等)。然后这些信息会被用到分类任务中去，为决策提供依据。

1.3 前向计算

上一节咱们讨论了如何将一个向量 x∈ℝn 输给神经网络中的一层（一组( m 个)二元回归神经元）进而得到他们的激励输出 a∈ℝm 。也简单提了一下这么做的意义，为了加深理解，咱们还是用命名实体识别（NER）的例子来直观解释一下这个过程吧。看这样一个例子：

“Museums in Paris are amazing”

我们要来判断这里的中心词”Paris”是不是个命名实体。在这种情况下，我们不止要知道这个词窗内哪些词向量出现过，可能也需要知道他们之间的相互作用。比如说，可能只有在”Museums”出现在第1个位置，”in”出现在第二个位置的时候，Paris才是命名实体。如果你直接把词向量丢给Softmax函数，这种非线性的决策是很难做到的。所以我们需要用1.2中讨论的方法对输入的变量进行非线性的处理加工(神经元产出非线性激励输出)，再把这些中间层的产物输入到Softmax函数中去。这样我们可以用另一个矩阵 U∈ℝm+1 ，与激励输出结果运算生成得分（当然，这里是未归一化的），从而进一步用于分类任务：

s = U T a = U T f (W x + b)

公式中的

f 是前面提到的做非线性变化的激励函数(激活函数)。

维度分析： 如果我们用4维词向量表示这些词，且用一个 5 词窗口作为输入（就像上面这个例子），那输入的变量就是 x∈ℝ20 . 如果在隐藏层中使用8个sigmoid神经元，并且由其激励输出生成1个得分，我们就有 W∈ℝ20，b∈ℝ8，U∈ℝ8×1，s∈ℝ 。

整个运算的过程（逐级的）大概是如下这个样子：
z=Wx+b
a=σ(z)
s=UTa

深度学习与自然语言处理(3)_斯坦福cs224d Lecture 3_第3张图片

图4: 这张图描述了一个前向计算网络如何运算得到输出值

1.4 最大化间隔目标函数

跟大多数机器学习模型一样，神经网络也需要一个优化目标，一个用来衡量模型好坏的度量。优化算法在做的事情呢，通常说来就是找到一组权重，来最优化目标或者最小化误差。这里我们讨论一个比较流行的度量，叫做最大化间隔目标函数。直观的理解就是我们要保证被正确分类的样本分数要高于错误分类的样本得分。

继续用之前的例子，如果我们把一个正确标记的词窗 “Museums in Paris are amazing”(这里Paris是命名实体)的得分记做 s ，而错误标记的词窗“Not all Museums in Paris”(这里Paris不是命名实体)的得分记作 sc (c表示这个词窗”corrupt”了)

于是，我们的目标函数就是要最大化 (s−sc) 或者最小化（sc−s）。但是，我们要对这个目标函数稍作修改，让他只有在 sc>s=>（sc−s）>0 的时候才计算这个函数的值。因为当正确标记的词窗得分比错误标记的词窗得分高的时候，我们认为是满足要求的，并没有误差，我们只关心错误标记的词窗比正确标记的词窗得分高了多少，它代表了误差的程度。于是，我们的目标函数在 sc>s 的时候取值（sc−s），其余时候取值为 0 现在，优化目标变成：

m i n i m i z e J = m a x (s c - s, 0)

但是这个优化函数还不稳妥，因为它缺乏一个用来保证安全划分的间隔。我们希望那些被正确标记的词窗得分不仅要比错误标记的词窗得分高，还希望至少高出一个取值为正的间隔

Δ 。换句话说，我们希望在

（s−sc<Δ）的时候就开始计算误差值，而不是等到

（s−sc<0）。

因此，我们修改优化目标为︰

m i n i m i z e J = m a x (Δ + s c - s, 0)

我们可以把这个 Δ 的取值定为1，在学习的过程中，模型其他的权重参数自动会进行相应的缩放，而并不会影响最终分类模型的精度。如果你想了解更多细节的话，可以去读一下支持向量机中关于函数间隔和几何间隔(functional and geometric margins)的内容。所以最后我们定义了以下形式的目标函数，作为在训练集中所有词窗上求最优化的目标：

m i n i m i z e J = m a x (1 + s c - s, 0)

1.5 反向传播训练法（未向量化的逐元素形式）

在这一节中我们来讨论一下，当1.4节中的目标函数 J 取值为正的时候，怎么来训练模型中的各个参数。如果这个目标函数的取值是0，那我们已经不再需要更新参数的取值了。一般来讲，我们通过可以通过梯度下降法来更新参数（或者一些变种，像随机梯度下降/SGD）。这样就需要每个参数的梯度的信息来实现下面的更新过程：

θ (t + 1) = θ (t) - α Δ θ (t) J

反向传播这种方法利用导数的链式法则来计算损失函数（正向计算求得）在每个模型参数上的梯度。为了进一步理解上述内容，我们来看下图5所示的这样一个简单的网络：

深度学习与自然语言处理(3)_斯坦福cs224d Lecture 3_第4张图片

图5:这是一个 4-2-1的神经网络，第 k 层神经网络上的第 j 个神经元上的输入值是 z(k)j ，输出的激励输出值为 a(k)j

这里我们讨论的是一个只有1个隐藏层，1个单独的输出单元的神经网络。我们先来统一以下标记：

xi 是神经网络的输入。

s 是神经网络的输出。

神经网络的每一层（包括输入层和输出层）都有神经元来进行输入和输出。第 k 层神经网络上的第 j 个神经元上的输入值是 z(k)j ，输出的激励输出值为 a(k)j 。

我们把反向传播到 z(k)j 上的误差记为 δ(k)j 。

第1层指的是输入层而不是第一个隐藏层。对于输入层，我们有 xj=z(1)j=a(1)j 。

W(k) 是把 k 层的激活子输出值映射到 k+1 层输入值的转换矩阵。于是，把这个一般化的标记用在1.3节例子中就有了 W(1)=W 以及 W(1)=U 。

一起来看看反向传播吧： 假设目标函数 J=(1+sc−s) 取正值，我们希望更新权重参数 W(1)14 (如图5及图6所示)，我们注意到这里 W(1)14 只在计算 z(2)1 和 a(2)1 时出现。这一点对于理解反向传播很重要-参数的反向传播梯度只被那些在正向计算中用到过这个参数的值所影响。 a(2)1 在之后的正向计算中和 W(2)1 相乘进而参与到分类得分的计算中。我们从最大化边界损失的形式看到：

\partial J \partial s = - \partial J \partial s c = - 1

于是，为了简化计算，我们这里可以只考虑

∂J∂W(1)ij 。于是

∂J∂s=−∂J∂sc=−1
这样，我们可以对

∂s∂W(1)ij 化简如下：

∂s∂W(1)ij=∂W(2)a(2)∂W(1)ij=∂W(2)ia(2)i∂W(1)ij=W(2)i∂a(2)i∂W(1)ij

⟹W(2)i∂a(2)i∂W(1)ij=W(2)i∂a(2)i∂z(2)i∂z(2)i∂W(1)ij

=W(2)if(z(2)i)∂z(2)i∂z(2)i∂W(1)ij

=W(2)if′(z(2)i)∂z(2)i∂W(1)ij

=W(2)if′(z(2)i)∂∂W(1)ij(b(1)i+a(1)1W(1)i1+a(1)2W(1)i2+a(1)3W(1)i3+a(1)4W(1)i4)

=W(2)if′(z(2)i)∂∂W(1)ij(b(1)i+∑ka(1)kW(1)ik)

=W(2)if′(z(2)i)a(1)j

=δ(2)i⋅a(1)j

我们可以看到这个梯度最终可以简化为 δ(2)i⋅a(1)j 这样一个形式。这里 δ(2)i 就是反向逆推到第 2 层上第 i 个神经元的误差。 a(1)j 则与 Wij 相乘后输入到第 2 层上第 i 个神经元的计算中。

译者注：这里所谓的反向传播误差 δ(k)i 其实就是最终的目标函数对于第 k 层上第 i 个激励输出值 z(k)i 的导数。当我们要求目标函数关于 Wk−1ij 的导数时，因为第 k 层上只有 z(k)i 的计算涉及到 Wk−1ij ，所以可以把 z(k)i 写成关于 Wk−1ij 的函数，接着利用导数的链式法则，得到目标函数关于 Wk−1ij 的导数。误差 δ(k) 从 k 层传播到 k−1 层的过程就等价于求目标函数高 1 阶的导数，这一步同样可以由偏导数的链式法则得到。

深度学习与自然语言处理(3)_斯坦福cs224d Lecture 3_第5张图片

图6:这个子网络描述的是当我们更新 W(1)ij 时所用到的神经网络的有关部分

我们以图6为例子，从”误差分配/分散”的角度来诠释一下反向传播。比如说我们如果要更新 W(1)14 ：

我们从 a(3)1 上的误差信息 1 开始进行逆向传播。
我们把这个误差乘以把 z(3)1 映射到 a(3)1 的神经元的局部梯度上。在这里这个梯度恰好也等于1 (有兴趣可以自己去算一下)。所以我们得到 δ(3)1=1 。
于是，这个误差信息 1 已经传到了 z(3)1 上。我们需要把这个误差分配到上一层 a(2)1 上去。(这里我们不关心 2 层上的其他激励输出，因为他们的计算不涉及到 W(1)14 )
分配到 a(2)1 上的误差为 (z(3)1 上的误差 =δ(3)1)×W(2)1 。于是传播到 a(2)1 上的误差为 W(2)1 。这里记作 W(2)11 比较合适
像第2步一样，我们通过把 a(2)1 上的误差乘以把 z(2)1 映射到 a(2)i 的神经元的局部梯度上，来把误差传播到 z(2)1 上。这里这个梯度是 f′(z(2)1) 。
于是 z(2)1 上的误差就等于 f′(z(2)1)W(2)1 。记作 δ(2)1 。
最后，我们要把这个误差乘以参与前向计算的 a(4)1 从而把误差信息分配到 W(1)14 上。
于是，目标函数关于 Wk−1ij 的导数就有了 a(4)1f′(z(2)1)W(2)1 这样的形式。

我们可以看到，我们从哪个角度出发，最后得到的结果都是一样的。所以对于反向传播我们既可以从链式法则的角度来理解，也可以从误差分配/分散的角度来理解。

偏移量的更新 偏移量（如 b(1)1 ）在计算下一层神经元输入值 z(2)1 时，与其他权重参数在数学形式上是等价的，只不过更他相乘的是常量1。所以，对于第 k 层上第 i 个神经元偏移量的梯度就是 δ(k)i 。比方说，如果我们在上面的例子中，要更新的是 b(1)1 而不是 W(1)14 ，那它的梯度就是 f′(z(2)1)W(2)1 。

从 δ(k) 到 δ(k−1) 反向传播的一般化步骤：

我们从 z(k)i 上的误差信息 δ(k)i （即第 k 层的第 i 个神经元）开始，见图7。
我们通过把 δ(k)i 乘以路径上的权重 W(k−1)ij 来把这个误差反向传播到上一层的激励输出 a(k−1)j 上。
于是，激励输出 a(k−1)j 收到了误差信息 δ(k)iW(k−1)ij 。
不过 a(k−1)j 在前向计算中，参与到下一层中多个神经元的计算中。比如 k 层上第 m 个神经元上的误差信息也将通过类似第3步中的方式传递到 a(k−1)j 上。
这样， a(k−1)j 收到的误差信息就会变成 δ(k)iW(k−1)ij+δ(k)mW(k−1)mj 。
因为第 k 层上有很多个神经元， a(k−1)j 收到的误差信息可以写成一般化的形式 ∑iδ(k)iW(k−1)ij
这样 a(k−1)j 就收到关于它的所有误差信息了，于是我们通过乘以这个神经元上的局部梯度 f′(z(k−1)j) 来把误差信息传播到 z(k−1)j 上。
最终，到达 z(k−1)j 上的误差信息就是 z(k−1)j∑iδ(k)iW(k−1)ij ,记作 δ(k−1)j 。

图7:从 δ(k) 到 δ(k−1) 反向传播

1.6 反向传播训练（向量化的形式）

我们前面介绍了如何计算模型中每个参数的梯度。这里我们要讨论如何把这些计算向量化及矩阵化(高效很多)。
对于权重参数 W(k)ij ，我们知道它的误差梯度为 δ(k+1)ia(k)j ，这里 W(k) 即为把 a(k) 映射到 z(k+1) 上的矩阵。于是我们可以把误差信息对于整个矩阵 W(k) 的梯度表示成以下形式:

Δ W (k) = ⎡ ⎣ ⎢ ⎢ ⎢ δ (k + 1) 1 a (k) 1 δ (k + 1) 2 a (k) 1 ⋮ δ (k + 1) 1 a (k) 2 δ (k + 1) 2 a (k) 2 ⋮ \dots \dots ⋱ ⎤ ⎦ ⎥ ⎥ ⎥ = δ (k + 1) a (k) T

于是，我们可以把这个矩阵形式的梯度写成(从下一层)反向传播过来的误差和（从这一层）参与到前向计算中的激励输出的外积。

深度学习与自然语言处理(3)_斯坦福cs224d Lecture 3_第6张图片

图 8︰从 δ(k) 到 δ(k−1) 的误差传播

咱们接着看如何向量化的计算 δ(k) 。参考上面的图8， δ(k)j=f′(z(k)j)∑iδ(k+1)iW(k)ij 。
这可以很容易推广到矩阵形式
δ(k)=f′(z(k))∘(W(k)Tδ(k+1))
在上式中 ∘ 表示元素对应位相乘（即Hadamard积 ∘:ℝN×ℝN→ℝN ）

计算效率: 我们知道，在很多科学计算软件中，像Matlab，Python（用NumPy/SciPy 包），向量化计算的效率远高于对每个元素逐个进行计算。所以，才实际操作中，我们尽可能的采用向量化的方式来训练参数。同时，我们在反向传播中应该尽量避免不必要的重复计算。比如说 δ(k) 的计算直接和 δ(k+1) 相关。于是我们要保证在我们用 δ(k+1) 更新 W(k) 的时候，我们存下 δ(k+1) 的值用来下一步计算 δ(k) 。以此类推，我们在 (k−1),…,(1) 上我们重复这样的步骤，这种递归过程将使整个反向传播更加有效。

2 神经网络：技巧和窍门

前面的部分讨论了神经网络的技术原理，理论和实践结合起来才能发挥大作用，现在咱们介绍一些神经网络在实际应用中常见的技巧和窍门。

2.1 梯度检验

我们已经介绍了如何用微积分计算神经网络模型中参数的误差梯度。现在我们介绍另一种不使用误差反向传播，而近似估计梯度的方法：

f' (θ) \approx J ( θ ( i + ) ) - J ( θ ( i - ) ) 2 ϵ

其中， θ(i+)=θ+ϵ×ei

从微分的定义来看，上述公式显然是正确的，但是怎么将其应用到求解误差梯度呢？对于一个给定的数据集，当我们正向扰动参数 θ 的第i个元素时(可以简单理解成 θ 加上一个极小的正数)，咱们基于前向传导可以计算出误差项 J(θ(i+)) 。同理，当我们负向扰动参数 θ 的第i个元素时，咱们基于前向传导可以计算出新的误差项 J(θ(i－)) 。因此，其实通过做两次前向运算，我们就可以根据上面的公式估计出任何给定参数的梯度。当然了，其实只做一次前向传导所需要的运算量也不小了，所以在估计梯度时，这种方法比较耗时，但是，在用于验证反向传播的实现时，这种方法很赞，也用得很多。

梯度检验的简单实现可以参照下述方式：

def eval_numerical_gradient(f, x):
  """ a naive implementation of numerical gradient of f at x - f should be a function that takes a single argument - x is the point (numpy array) to evaluate the gradient at """
  fx = f(x) # evaluate function value at original point
  grad = np.zeros(x.shape)
  h = 0.00001
  # iterate over all indexes in x
  it = np.nditer(x, flags=[’multi_index’],
                   op_flags=[’readwrite’])
  while not it.finished:
    # evaluate function at x+h
    ix = it.multi_index
    old_value = x[ix]
    x[ix] = old_value + h # increment by h
    fxh = f(x) # evaluate f(x + h)
    x[ix] = old_value # restore to previous value (very important!)
  # compute the partial derivative
  grad[ix] = (fxh - fx) / h # the slope
  it.iternext() # step to next dimension
return grad

以下为页边注

梯度检验：其实一般情况下，解析梯度是一个更快的梯度求解方法，不过容易出错，而梯度检验是个很好的比较解析梯度和数值型梯度的方法。数值型梯度可以用下述公式去计算：

f' (θ) \approx J ( θ ( i + ) ) - J ( θ ( i - ) ) 2 ϵ

其中， J(θ(i+)) 和 J(θ(i−)) 可以通过正向和负向微调 θ 后两次前向传导来计算得到，这种方法的代码实现可以参阅Snippet 2.1。

以上为页边注

2.2 正则化

像大多数分类器一样，神经网络也容易产生过拟合，这会导致其在验证集和测试集上的结果并不一定那么理想。为了解决这个问题，简单一点咱们可以应用L2正则化，加上正则化项的损失函数 JR 可以通过下述公式来计算：

J R = J + λ \sum i = 1 L ∥ W (i) ∥ F

在上述公式中， ∥W(i)∥F 是矩阵 W(i) 的F范数（frobenius norm）， λ 是用于在加权和目标函数中进行正则化的相对权重。加上这个正则化项，意在通过作用到损失的平方来惩罚那些在数值上特别大的权重（译者注：也就是让权重的分配更均匀一些）。这样一来，目标函数（也就是分类器）的随意度(译者注：也就是可用于拟合的复杂度)就被降低了，约束了拟合函数的假设空间，因此减少了发生过拟合的可能性。施加这样一种约束条件可以用先验贝叶斯思想来理解，即最优的权重分配是所有权重都接近0。你想知道有多接近？对啦，这正是 λ 所控制的——大的 λ 会倾向于使所有权重都趋于0。值得注意的是，偏移量 b 不会被正则化，也不会被计算入上述的损失项（试着想想为什么？）。

2.3 神经单元

前面的内容里，我们已经讨论过了包含sigmoid神经元（sigmoidal neurons）来实现非线性分类的神经网络算法，然而在许多应用中，使用其他激励(激活)函数（activation functions）可以设计出更好的神经网络。这里列举了一些常用选择的函数表达式和梯度定义，它们是可以和上文讨论过的sigmoid函数（sigmoidal functions）互相替代的。

Sigmoid：这是通常拿来做例子的函数，我们已经讨论过它，其激励(激活)函数 σ 为：

σ (z) = 1 1 + e x p ( - z )

其中， σ(z)∈(0,1)

σ(z) 的梯度为：

σ' (z) = - e x p ( - z ) 1 + e x p ( - z ) = σ (z) (1 - σ (z))

以下为页边注

图9：Sigmoid非线性的响应

以上为页边注

Tanh：tanh函数是除了sigmoid函数之外的另一种选择，在实际中，它的收敛速度更快。tanh函数与sigmoid函数最主要的不同是tanh函数的输出结果在-1和1之间，而sigmoid函数的输出结果在0和1之间。

t a n h (z) = e x p ( z ) － e x p ( - z ) e x p ( z ) ＋ e x p ( - z ) ＝ 2 σ (2 z) － 1

其中， tanh(z)∈(－1,1)
tanh(z) 的梯度为：

t a n h' (z) = 1 - (e x p ( z ) － e x p ( - z ) e x p ( z ) ＋ e x p ( - z )) 2 = 1 - t a n h 2 (z)

以下为页边注

图10： tanh 非线性的响应

以上为页边注

Hard Tanh：hard tanh(硬双曲余弦正切)函数在有些时候要优于tanh函数，因为它在计算上更为简便。然而当z大于1时，hard tanh函数会在数值上形成饱和（译者注：即恒等于1）。hard tanh的激活函数为：

h a r d t a n h (z) = ⎧ ⎩ ⎨ ⎪ ⎪ - 1 z 1 : z < -1 : -1 \leq z \leq 1 : z > 1

其微分也可以用分段函数来表达：

h a r d t a n h' (z) = {10 : -1 \leq z \leq 1 : otherwise

以下为页边注

图11：hard tanh非线性的响应

以上为页边注

Soft Sign：Soft Sign函数是另一个可以被用来替代Tanh函数的非线性函数，因为它也不会像硬限幅函数（hard clipped functions）那样过早饱和。其函数表达式为：

s o f t s i g n (z) = z 1 + ∣ z ∣

其微分表达式为：

s o f t s i g n' (z) = s g n ( z ) ( 1 + z ) 2

其中 sgn() 是符号函数，即根据 z 的符号返回＋1 或－1 。

以下为页边注

图12：soft sign非线性的响应

以上为页边注

ReLU：ReLU（修正线性单元，Rectiﬁed Linear Unit）函数是激活函数的一个流行选择，因为即使对特别大的 z ，它也不会饱和，并且已经发现它在计算机视觉应用中非常好用。其函数表达式为：

r e c t (z) = m a x (z, 0)

其微分表达式为：

r e c t' (z) = {10 : z>0 : otherwise

以下为页边注

图13：ReLU非线性的响应

以上为页边注

Leaky ReLU：对于非正数的 z ，传统设计上的ReLU单元不会回传误差——而leaky ReLU修正了这一点，使得 z 是负数时，很小的误差也会反向传播回传回去。其函数表达式为：

l e a k y (z) = m a x (z, k \times z)

其中， 0<k<1
因此其微分表达式可以被表示为：

l e a k y' (z) = {1 k : z>0 : otherwise

以下为页边注

图14：leaky ReLU非线性的响应

以上为页边注

2.4 Xavier参数初始化

在《理解训练深层前馈神经网络的困难（Understanding the Difficulty of Training Deep Feedforward Neural Networks）》(2010)一文中，Xavier等人研究了不同权重和偏差的初始化方案对训练动力（training dynamics）的影响。实证研究结果表明，对于sigmoid和tanh激活单元，当矩阵的权重 W∈ℝn(l+1)×n(l) 以均匀分布在以下值域范围内被随机初始化时，有着更低的错误率和更快的收敛速度：

W \sim U [- 6 n ( l ) + n ( l + 1 ) ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt, 6 n ( l ) + n ( l + 1 ) ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt]

其中， n(l) 是 W 关联的输入单元的数量（fan-in）， n(l＋1) 是 W 关联的输出单元的数量（fan-out）。

在这种参数初始化方案里，偏差项( b )被初始化为0。这种方法的目的是维持跨层的激活方差和反向传播梯度方差。如果不初始化，梯度方差（包含大量修正信息）一般会随层间反向传播而很快衰减。

2.5 学习速率

模型最优化的过程中，参数更新的速度可以通过学习速率来控制。比如下面的梯度下降公式中， α 是学习速率：

θ n e w = θ o l d - α \nabla θ J t (θ)

看到公式以后你可能会认为 α 越大收敛速度会越快，事实上并不是这样哦。学习速率过大甚至可能会导致损失函数的不收敛，因为有时候因为太激进，参数的迭代步伐太大，一不小心跨过了凸优化的极小值，如图15所示。在非凸模型中（我们大多数时候遇到的），大学习速率的结果是不可预测的，但出现损失函数不收敛的可能性是非常高的。所以一定要慎重哦。

以下为页边注

图15：从上图可以看出，有时候学习率太大，更新的参数 w2 反倒跨过了最低点，朝着误差增大的方向挪动了。

以上为页边注

那怎么办呢？一个简单的方案就是，初始化一个比较小的学习速率，谨慎地在参数空间内迭代和调整以避免模型不收敛。同时，我们还可以固定模型中所有参数的学习速率，而不是为模型中所有参数设定不同的学习速率。

深度学习系统训练阶段通常最耗时耗资源，一些研究也试图应用一些新的方法来设置学习速率。例如，Ronan Collobert通过取神经元 n(l) 输入单元数的平方根的倒数来把权重 Wij （ W∈ℝn(l+1)×n(l) ）的学习速率进行标准化。另一种方法是允许学习速率随着时间而减小，如：

α (t) = α 0 τ m a x ( t , τ )

在上述方案中， α0 是一个可调参数，代表起始学习速率。 τ 也是一个可调参数，代表学习速率应该开始降低的时间。实践中，这种方法相当有效。下个部分，我们会讨论另一种方法，即不需要手动调节学习速率的自适应梯度下降法。

2.6 使用AdaGrad进行次梯度优化

AdaGrad是标准随机梯度下降法（SGD）的一种实现，但是有一个关键的区别：每个参数的学习速率是不同的。参数的学习速率取决于该参数梯度更新的历史情况，更新的历史越稀疏，就应该使用更大的学习速率加快更新。换句话说，那些在过去未被更新的参数更有可能在现在获得更高的学习速率。其形式如下：

θ t, i = θ t - 1, i - α \sum t τ = 1 g 2 τ , i ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt g t, i

其中， gt,i=∂∂θtiJt(θ)

对应上述公式我们可以看到，在这种算法中，如果梯度历史的方均根（RMS）非常低，学习速率会比较高。算法的实现如下：

# Assume the gradient dx and parameter vector x cache += dx**2
x += - learning_rate * dx / np.sqrt(cache + 1e-8)

你可能感兴趣的:(自然语言处理,深度学习,反向传播,参数初始化,斯坦福课程)

SDL2渲染RGB图像 qq_52484093 音视频音视频
SDL的相关函数使用SDL渲染RGB图像#include#include#include#undefmain#pragmacomment(lib,"SDL2.lib")usingnamespacestd;intmain(){constintw=800;constinth=600;//1.初始化SDLVideo库if(SDL_Init(SDL_INIT_VIDEO)){coutpixels(newu
SDL渲染应用（1）好想吃杏干音视频开发应用 c++
SDL渲染应用（1）基本流程案例一：使用SDL渲染一幅RGB图像数据#include#include#pragmacomment(lib,"SDL2.lib")#undefmain()usingnamespacestd;intmain(intargc,char*argv[]){/*1.创建窗口的大小*/intw=800;inth=600;/*初始SDLvideio库，并判断是初始化成功返回0视为成
从零开始：Python实现语音识别的完整教程_副本 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 python 语音识别开发语言 ai
从零开始：Python实现语音识别的完整教程关键词：Python、语音识别、语音转文本、音频处理、机器学习、深度学习、自然语言处理摘要：本文将带你从零开始学习如何使用Python实现语音识别功能。我们将从基础概念讲起，逐步深入到实际代码实现，涵盖音频处理、特征提取、模型训练等关键环节，最终构建一个完整的语音识别系统。无论你是初学者还是有一定经验的开发者，都能从本教程中获得实用的知识和技能。背景介绍
面向大语言模型幻觉的关键数据集：系统性综述与分类法致Great 语言模型人工智能自然语言处理
面向大语言模型幻觉的关键数据集：系统性综述与分类法摘要大语言模型（LargeLanguageModels,LLMs）在自然语言处理的多个领域取得了革命性进展，但其固有的“幻觉”问题——即生成看似合理但与事实不符或与上下文无关的内容——严重制约了其在关键应用中的可靠性与安全性。为了系统性地评估、理解并缓解LLM的幻觉现象，学术界和工业界开发了大量多样化的数据集与基准。本文对大模型幻觉领域的关键数据集
【锂电池SOC估计】 Matlab基于BP神经网络的锂电池SOC估计天天Matlab代码科研顾问 matlab 神经网络开发语言
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍摘要:电池荷电状态(StateofCharge,SOC)的精确估计对于电动汽车、储能系统等应用至关重要。传统的SOC估计方法存在精度受限、算法复杂等问题。本文提出了一种基于反向传播(BackPropagation,BP)神经网络的锂电池SO
分类预测 | MATLAB实现BP神经网络多特征分类预测 matlab科研社分类 matlab 神经网络
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍近年来，随着大数据时代的到来以及计算能力的显著提升，人工智能技术得到了飞速发展。在众多人工智能算法中，反向传播神经网络（BackPropagationNeuralNetwork,BP神经网络）凭借其强大的非
信息抽取数据集全景分析：分类体系、技术演进与挑战_DEEPSEEK 致Great 分类数据挖掘人工智能
信息抽取数据集全景分析：分类体系、技术演进与挑战摘要信息抽取（IE）作为自然语言处理的核心任务，是构建知识图谱、支持智能问答等应用的基础。近年来，随着深度学习技术的发展和大规模预训练模型的兴起，IE数据集呈现爆发式增长，其分析与评估对模型研发和领域迁移至关重要。本文基于对158个主流IE数据集的系统性梳理，首次提出“信息提取与命名实体识别数据集分类体系”。该体系涵盖8大类别（命名实体识别、关系提取
自然语言处理之文本生成：Recurrent Neural Networks (RNN)：序列模型与语言模型 zhubeibei168 自然语言处理自然语言处理 rnn 语言模型人工智能机器翻译生成对抗网络
自然语言处理之文本生成：RecurrentNeuralNetworks(RNN)：序列模型与语言模型自然语言处理简介NLP的基本概念自然语言处理（NaturalLanguageProcessing，简称NLP）是人工智能领域的一个重要分支&#
C# Lambda表达式：从匿名方法到优雅简洁的代码革命钢铁男儿 C#图解教程 c#开发语言
本文将系统解析Lambda表达式的演变历程、核心语法和实战应用，帮助开发者彻底掌握这一革命性特性：一、演进背景：为什么需要Lambda表达式？C#2.0匿名方法的痛点MyDeldel=delegate(intx){returnx+1;};//原始匿名方法冗余的delegate关键字必须显式声明参数类型语法臃肿（平均比Lambda多70%字符）C#3.0的解决方案Lambda表达式通过类型推断和语法
Python 可迭代的对象、迭代器和生成器(标准库中的生成器函数) 钢铁男儿流程Python python java 前端
标准库中的生成器函数标准库提供了很多生成器，有用于逐行迭代纯文本文件的对象，还有出色的os.walk函数（https://docs.python.org/3/library/os.html#os.walk）。这个函数在遍历目录树的过程中产出文件名，因此递归搜索文件系统像for循环那样简单。os.walk生成器函数的作用令人赞叹，不过本节专注于通用的函数：参数为任意的可迭代对象，返回值是生成器，用于
Gateway实现对接口参数加密 kerolalala java 前端网络
知识点SrpingCloudGateway过滤器讲解一、概述在微服务架构中，API网关（Gateway）是系统对外的统一入口，它不仅负责请求的路由分发，还承担着安全控制、流量控制等重要职责。参数加密是保障数据传输安全的重要手段之一，我们可以让客户端负责加密参数，网关负责在请求到达各服务端之前进行解密，然后将明文参数请求分发给对应服务。此文将介绍一个基于SpringCloudGateway实现的参数
Linux C 目录基本操作 basketball616 Linux C 编程 c语言算法开发语言
需要引用的头文件#includeunistd.h为程序提供了对POSIX操作系统API的访问接口，主要用于提供与系统调用相关的功能。char*getcwd(char*buf,size_tsize);用于获取当前工作目录（CurrentWorkingDirectory）的绝对路径。参数buf:指向存放当放当前目录的数组size:数组的大小返回值成功：返回包含当前工作目录的字符串。如果buf不为NUL
HIGRESS插件开发实战：构建自定义网关功能 CarlowZJ Higress
摘要本文深入探讨HIGRESS插件开发，包括插件架构、开发流程、实战案例等内容。通过详细的代码示例和最佳实践，帮助开发者掌握插件开发技能，实现自定义网关功能。目录插件开发概述开发环境搭建插件架构设计开发流程详解实战案例调试与测试性能优化最佳实践总结与展望1.插件开发概述1.1插件架构插件系统插件加载器插件管理器插件执行器插件生命周期动态加载配置加载插件注册插件发现请求处理响应处理初始化启动停止1.
java操作JSON 呜呜你好特别 java json 开发语言
一、Jackson概念1、作用它是用来前后端的交互功能，属于SpringMVC二、ObjectMapper2.1、作用是用来后端接收的json数据转换成各种格式。也可以转换各种格式2.1.1、第一步，初始化ObjectMappermapper=newObjectMapper();2.1.2、写到文件中Useruser=newUser("243582","h2435823336");//mapper
机电一体化c语言程序设计,机电一体化专业《C语言程序设计》课程标准爱吃糖的果子狸机电一体化c语言程序设计
山东海事职业学院机电一体化专业《C语言程序设计》课程标准一、课程性质与任务《C语言程序设计》是机电一体化专业的职业能力素质课程之一，并且是本专业的核心专业课程之一，理论性和实践性均较强，既要掌握理论概念，又要动手编程，还要上机调试运行。通过本课程的学习，使学生掌握基本的程序设计过程和技巧，熟练应用MicrosoftVisualC6.0集成环境进行C语言的编写、编译与调试，培养学生的逻辑思维能力、抽
I.MX6ULL ARM裸机开发---C语言LED实验一盆电子 ARM裸机开发 arm c语言驱动开发
一、引言考虑到工作效率，嵌入式驱动开发很少用汇编，大部分是用C语言进行开发。嵌入式驱动开发开始部分就可以用C语言吗？当然不是！在开始部分用汇编来初始化一下C语言环境，比如初始化DDR、设置堆栈指针SP等等，当这些工作都做完以后就可以进入C语言环境，也就是运行C语言代码，一般都是进入main函数。有两部分文件需要完成： 1、汇编文件汇编文件用来完成C语言环境搭建。 2、C语言文件
使用Ultralytics YOLO进行数据增强 alpszero YOLO计算机视觉应用 YOLO 人工智能机器学习
概述数据增强是计算机视觉领域的一项重要技术，它通过对现有图像进行各种转换，人为地扩展训练数据集。在训练深度学习模型时，数据增强有助于提高模型的鲁棒性，减少过拟合，并增强对真实世界场景的泛化。在训练计算机视觉模型的过程中，数据增强具有多种重要作用：扩展数据集：通过创建现有图像的变体，可以有效增加训练数据集的规模，而无需收集新数据。提高泛化能力：模型学会在各种条件下识别物体，使其在实际应用中更加稳健。
查找当前目录（含子目录）所有文件中包含 com.mipha.ScanDemo 的文件微信公众号：AI创造财富 linux 运维服务器
我想在一个windwos目录下里所有的文件里存在com.mipha.ScanDemo字符的文件以及位置cmd命令怎么弄？例如，查找当前目录（含子目录）所有文件中包含com.mipha.ScanDemo的文件和具体行：findstr/spin"com.mipha.ScanDemo"*.*参数说明：/s递归子目录/p跳过有不可打印字符的文件（避免二进制文件报错）/i忽略大小写（如果你不需要忽略，可以去
车载充气泵气压传感器选型
随着汽车工业的快速发展，车载充气泵已成为现代车辆不可或缺的便携设备。本文围绕车载充气泵方案设计，重点探讨气压传感器DSH700B的核心技术优势及其在智能充气系统中的关键作用，为行业提供创新性解决方案参考。一、DSH700B气压传感器的技术特性DSH700B作为高精度数字气压传感器，具备以下核心参数：测量范围：0~1500kPa，覆盖汽车轮胎（200-350kPa）及越野设备高压需求精度等级：±0.
推荐几本人工智能方面的书（入门级）人邮异步社区人工智能深度学习神经网络
以下推荐几本适合入门人工智能的书籍，帮助你逐步建立基础知识和理解：一、数学基础类《数学之美》推荐理由：深入浅出地讲解了自然语言处理与搜索方向的数学原理，对于理解算法背后的数学逻辑非常有帮助。本书的章节名称，有“统计语言模型”“谈谈中文分词”“贾里尼克和现代语言处理”“布尔代数和搜索引擎”“信息指纹及其应用”等，似乎太过专业，实际上高中和大学低年级的同学们都能看得懂，当然本书因此也可以称得上是“高级
【C#面向对象】第二课——深入C#数据类型、值类型和引用类型的学习逍遥小丸子 C#面向对象 C#数据类型数据类型值类型和引用类型拆箱和装箱枚举
知识点：理解值类型和引用类型的区别、掌握结构类型的定义、掌握拆箱和装箱的概念、掌握使用值类型和引用类型作为方法的参数1、值类型和引用类型我们在前面学习过C#中的常用数据类型，常用的数据类型有：C#中的数据类型说明用法举例
Ubuntu下安装Moodle平台 swy520 ubuntu Moodle ubuntu Moodle
一前言Moodle是一个开源课程管理系统（CMS），也被称为学习管理系统（LMS）或虚拟学习环境（VLE），它通常用来播放符合SCORM标准的课件，但功能远不止课程管理，作业模块等功能。这里主要介绍moodle的安装方法。二安装准备Moodle通常在Linux操作系统上，基于Apache，PostgreSQL/MySQL/MariaDB和PHP进行开发。为了平台的稳定性，我们选择Linux操作系统
python为指定目录下的文件名批量加前缀 jghhh01 python java 前端
功能描述：批量重命名指定目录下的文件，文件名加前缀，默认格式为“目录名_原文件名”。代码importargparseimportosimportsysimportloggingdefgen_args():"""说明-----解析命令行参数"""parser=argparse.ArgumentParser(prog="批量文件重命名工具",description="批量重命名目录中的文件名,新文件名
MySQL5.7评估数据库层binlog过滤写入颖妍--唯爱数据库 mysql
binlog-do-db参数的影响本次测试均为binlog_format=row格式,因为binlog_format=statement格式在复制场景下，对函数和存储过程使用不友好，很容易导致主从数据不一致，生产环境很少有使用statement格式。使用use指定库在test库进行ddl操作和dml操作[root@localhost]15:17:10[test]>flushbinarylogs;Q
AI人工智能领域知识图谱在深度学习中的应用拓展
AI人工智能领域知识图谱在深度学习中的应用拓展关键词：知识图谱、深度学习、神经网络、图嵌入、知识表示学习、推理机制、应用场景摘要：本文深入探讨了知识图谱与深度学习的融合应用，系统性地分析了知识图谱在深度学习中的关键技术路径和应用场景。文章首先介绍了知识图谱的基本概念和表示方法，然后详细阐述了知识图谱与深度学习结合的多种技术路线，包括图神经网络、知识嵌入和推理机制等。接着通过具体案例展示了知识图谱增
Tomcat性能调优指南
文章目录一、Tomcat性能调优概述为什么需要调优Tomcat？二、Tomcat架构与性能关键点三、JVM调优1.内存配置优化2.垃圾回收优化3.其他JVM优化参数四、连接器(Connector)调优1.NIOvsAPR/Native2.高级NIO配置五、线程池优化六、会话管理优化1.会话超时配置2.会话持久化选择七、静态资源处理优化1.启用Sendfile2.配置静态资源缓存八、其他优化措施1.
Spring注解驱动开发之BeanPostProcessor后置处理器桐花思雨 spring #应用 spring
目录1.前言2.`BeanPostProcessor`接口2.1.`BeanPostProcessor`的源码2.2.自定义`BeanPostProcessor`后置处理器2.2.1.实现`BeanPostProcessor`接口2.2.2.创建实体类2.2.3.创建配置类2.2.4.测试结果1.前言BeanPostProcessor后置处理器可用于bean初始化前后进行逻辑增强。Spring提供
CARLsim开源程序是一个高效、易用、GPU 加速的软件框架，用于模拟具有高度生物细节的大规模脉冲神经网络（SNN）模型。 struggle2025 神经网络人工智能深度学习
一、软件介绍文末提供程序和源码下载CARLsim是一个高效、易用的GPU加速库，用于模拟具有高度生物学细节的大规模脉冲神经网络（SNN）模型。CARLsim允许在通用x86CPU和标准现成GPU上以逼真的突触动力学执行Izhikevich脉冲神经元网络。该模拟器在C/C++中提供了一个类似PyNN的编程接口，允许在突触、神经元和网络级别指定详细信息和参数。二、CARLsim6的新功能包括：CUDA
质量管理重要理论知识和质量管理工具
一、质量管理核心理论1.戴明循环（PDCA）理论：通过“计划（Plan）→执行（Do）→检查（Check）→改进（Act）”实现持续改进。例子：问题：某电子厂PCBA焊接不良率高达5%。Plan：分析发现回流焊温度曲线不稳定；Do：调整炉温参数，设定梯度升温；Check：一周后不良率降至1.2%；Act：将新参数写入标准作业指导书（SOP）。2.朱兰三部曲理论：质量策划→质量控制→质量改进。例子：
Linux学习笔记：PCIe内核篇（1）：初始化与枚举流程 ZH_2025 嵌入式协议篇 PCIE
根据system.map查看内核中PCIe加载流程：root@zh-vm:~#cat/boot/System.map-5.15.0-130-generic|greppci|grepinitcallffffffff8350ff68d__initcall__kmod_pci__453_6907_pci_realloc_setup_params0ffffffff83510098d__initcall__
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多