袁乃青

第七章：神经网络与神经语言模型_Dan Jurafsky《自然语言处理综述》(第三版)读书笔记

7.0前言
7.1单元units
7.2异或问题
- 7.2.1解决方案：神经网络
7.3前馈神经网络
7.4 训练神经网络
- 7.4.1 损失函数
- 7.4.2 计算梯度
- 7.4.3 计算图
- 7.4.4 使用计算图进行反向求导
- - - - 神经网络的反向求导
- 7.4.5 更多的学习细节
7.5 神经语言模型
- 7.5.1 词嵌入
- 7.5.2 训练神经网络模型
7.6 总结
文献和历史说明

7.0前言

神经网络是语言处理中核心的计算工具，并且很早就出现了。神经这个名字最早来源于McCulloch-Pitts neuron(1943)，是一个人类神经元的简化模型，可以理解为命题逻辑中的计算单元（？）？。不过现在在语言处理中，不再具有生物学意义。现在的神经网络是一个小型的由众多计算单元组成的网络，输入一个向量，输出一个值。这章介绍用于分类的神经网络，前馈神经网络，因为计算过程迭代地从前一层传到下一层。现在的神经网络也被称为深度学习，因为现在的网络常常很深，有很多层。
神经网络与逻辑回归有许多相似的数学运算，但是神经网络作为分类器要更为强大，即使只有一个隐藏层的最小的神经网络都可以实现所有函数。神经网络分类器和逻辑回归还有一个不同。使用逻辑回归时，需要根据领域知识设计很多特征，然后应用于分类任务中。而使用神经网络，通常是避免使用人工设计的特征，而是直接将词语输入神经网络，在神经网络学习分类的过程时，顺带获得特征。词嵌入就是通过这种方式获得的。所以深层神经网络特别适合表示的学习，尤其适合使用大规模数据来自动学习特征。
本章将学习前馈神经网络作为分类器，并应用于建立语言模型：计算一个词语序列的概率，预测后词。后面章节将介绍RNN和编码-解码模型。

7.1单元units

神经网络的构成组件是一个简单的计算单元。一个单元把一组实值作为输入，通过计算，输出另一个值。它的核心是将输入进行加权求和，再加上一个偏置项。给定一组输入 $x_1...x_n$ ，这个单元有一组相应的权重 $w_1...w_n$ ，和一个偏置项b，那么加权和 $z$ 可以表示为： $z=b+\sum_iw_ix_i$ 使用向量表示会更加方便，向量就是一组数字，权重向量为 $w$ ，标量偏置项为 $b$ ，输入向量为 $x$ ，把加权和用内积代替： $z = w \cdot x + b$ 结果 $z$ 是一个实值。不过最后的输出并不是 $z$ ， $z$ 是 $x$ 的线性函数，神经单元再把 $z$ 传入到一个非线性函数 $f$ ，我们把这个函数的输出称为激活值 $a$ 。上面我们只构造了一个单元，这个节点的激活值就是这个网络的最终输出，我们一般称之为 $y$ 。 $y = a = f (z)$ 下面讨论三个常用的非线性函数 $f ()$ ：sigmoid，tanh，ReLu。sigmoid有很多的好处，它把输出投射到0到1的空间，还有就是它是可微分的。 $y=\sigma(w·x+b)=\frac{1}{1+exp(-(w·x+b))}$

上图，三个特征加一个偏置，输入到神经元中，加权求和后输入sigmoid函数，输出激活值a。

实际上，sigmoid不是常用的激活函数，经常使用的是tanh，与sigmoid相似，但是效果更好。tanh是sigmoid的变体，值域为-1到1： $y=\frac{e^z-e^{-z}}{e^z+e^{-z}}$
不过，最简单的激活函数，可能是最常用的，是ReLU，也叫修正线性单元。x为正时，函数值为x；x为负时，函数值为0： $y = m a x (x, 0)$
激活函数的不同性质，会在不同的语言应用或者网络架构中起到不同作用。ReLU使它的输出结果趋向于线性。sigmoid和tanh中，如果输入的z值较大，那么输出值y就会趋近于1，学习过程会发生问题，ReLU就没有这样的问题，不过tanh的好处是平滑可微，并把离群值映射到均值。

7.2异或问题

早在神经网络的初期，人类就意识到神经网络的力量来源于把多个计算单元连在一起，形成大网络。因为单一的神经元甚至不能解决很简单的逻辑问题。下面看Minsky&Papert（1969）给出的证明：AND, OR, XOR(相同取0，相异取1)问题。
感知机(perception)是一个简单的神经单元，有两个输出，没有非线性激活函数。两个输出分别是0和1： $y=\left\{\begin{array}{lc}0,&if\;w\cdot x+b\leq0\\1,&if\;w\cdot x+b>0\end{array}\right.$ 我们可以很容易地设计出一个感知机，来计算逻辑AND(a)和OR(b)。

x1和x2是输入，取值0或者1，那么AND的计算结果是x1+x2-1，只有x1=x2=1时，AND的计算结果为1，也就是为真；OR的计算结果是x1+x2，只要x1和x2不全为零，OR的结果就是1或者2，也就是为真。

但是，我们没有办法设计一个能计算XOR问题的感知机！原因是感知机实际上是一个线性分类器。对于一个二维输入x1，x2，感知机公式 $w 1 x 1 + w 2 x 2 + b = 0$ ，实际上是一条直线： $x 2 = - (w 1 / w 2) x 1 - b$ 。这条直线就是二维空间里的决策边界，输入直线一侧的点输出为0，输入直线另一侧的点输出为1。如果我们有2个以上的输入，决策边界将变成一个超平面，不过意义是一样的，也是把空间分成了两个类别。下图展示了在二维空间中，逻辑输入(00, 01, 10, 11)以及AND和OR分类器在设某一组参数时的分界线。但是由于XOR问题不是一个线性可分的问题，所以没法画出线性分界线，不过可以使用曲线画出分界线。

7.2.1解决方案：神经网络

既然XOR不能通过一个感知机来计算，我们可以使用多层网络来解决。Goodfellow(2016)使用基于ReLU的两层神经网络解决了XOR问题。

中间层有2个单元，输出层有1个单元。黑色箭头上的数字是权重，灰色箭头为偏置项。我们尝试输入[0, 0]，得到h₁=0，h₂=-1，将ReLU函数分别应用于h₁，h₂，分别得到0和0，也就是[0, 0]，再作为输入计算y₁的值为0。尝试输入[0,1]和[1, 0]，将得到1。这就解决了XOR问题。
回过头来观察一下隐藏层，下图展示了原始输入经过隐藏层变换后的值。
输入[0,1]和[1,0]转换成了[1,0]；[1,1]变成了[2,1]。于是原始的4个点变成了3个线性可分的点。所以，我们可以把隐藏层看作对输入表示的转化。
在以上的例子中，我们直接设定好了网络的权重参数。但是在真正的神经网络中，这些参数是通过错误反向传播算法自动学习到的。也就是说，隐藏层将自动学习对输入表示进行转化的参数，这也是神经网络的一个巨大优势。
注意：要解决XOR问题，网络中的神经元需要用到非线性激活函数。即使多个感知机组成网络，由于它没有非线性激活函数，它也解决不了XOR问题。因为纯线性计算单元组成的多层网络总是能被简化为（或等同于）一个单层感知机，而单层的结构无法解决XOR问题。

7.3前馈神经网络

前馈网络是一个多层网络，神经元之间相连无回路，一层网络的输出，作为输入传到另一层，方向是单一向前的。由于历史的原因，多层网络有时被称为多层感知机(multi-layer perceptions)，实际上是用词不当，因为今天多层网络中的计算单元都有类似sigmoid等的非线性激活函数，而这是感知机所没有的。
简单的前馈网络有三种节点：输入单元、隐藏单元、输出单元。

输入单元接受标量数值。神经网络的核心是由隐藏单元构成的隐藏层。隐藏单元接受输入的加权和，然后使用非线性激活函数。在标准的结构中，每一层都是全连接的(fully-connected)，意思是：每一层的每一个单元接受previous层所有单元的输出作为输入；相邻的两层，前层任何一个神经元都有后层任何一个神经元相连接。因此，每个隐藏神经元都对所有的输入单元求和。
隐藏层的每一个单元有参数 $w$ (权重向量)和一个 $b$ (偏置项标量)。如果把一个隐藏层的所有单元的权重向量 $w_i$ 和偏置项 $b_i$ 堆叠到一起，那么每一个隐藏层的所有权重可以表示为矩阵 $W$ ，所有偏置项组成向量 $b$ 。矩阵中的每一个元素 $W_{ij}$ 表示输入单元 $x_i$ 到隐藏单元 $h_j$ 的权重。使用一个矩阵 $W$ 储存整层权重的好处是：前馈网络隐藏层的计算可以非常快。计算只有三步：输入向量 $x$ 乘以权重矩阵；加上偏置向量 $b$ ；传入激活函数 $g$ 求得隐藏层的输出 $h$ ： $h=\sigma(Wx+b)$ 注意：这里的 $\sigma$ 函数用到了一个向量上，激活函数 $g(\cdot)$ 用于向量上时表示： $g[z_1, z_2, z_3]=[g(z_1),g(z_2),g(z_3)]$ .
我们引入一些常量来表示上面向量和矩阵的维数。我们把网络的输入层称为第0层，用n₀来表示输入的数量，那么x就是一个维度为n₀的实数向量，或者说 $x\in\mathbb{R}^{n_0}$ 。我们把隐藏层称为第1层，输出层称为第2层。隐藏层的维度为n₁，那么 $h\in\mathbb{R}^{n_1}$ 而且 $b\in\mathbb{R}^{n_1}$ ，因为每一个隐藏层单元都有一个不同的偏置项。那么权重矩阵W的维度就是 $W\in\mathbb{R}^{n_1\times n_0}$ 。
从上面的7.2可以看出来，隐层h的值实际上是输入的一种表示，输出层就是使用这一个新的表示h，计算出最终结果。最终结果可以是一个实数，但在更多的情况下神经网络的目标是做出某种分类决策，所以这里我们也重点关注分类。
如果我们做二分类任务，例如情感分类，我们只需要一个输出单元，它的输出值y是积极情感的概率。如果我们做的是多分类任务，比如词性标注，那么我们可能就需要为每一个词性设置一个输出单元，输出值就是这个词性的概率，并且所有输出单元的输出值总和为1。也就是说，输出层给出了所有输出单元的概率分布。
来看一下计算过程。输出层也有一个权重矩阵U，不过有一些简化的模型没有偏置向量b，我们就也使用简化模型来说明。权重矩阵乘以输入向量h，得到一个值z。 $z = U h$ 假如输出层有n₂个单元，那么 $z\in\mathbb{R}^{n_2}$ ，权重矩阵U的维度为 $U\in\mathbb{R}^{n_2\times n_1}$ ，元素U_ij是隐藏层第j个神经元到输出层第i个神经元的权重。
不过需要注意的是，现在z并不是分类器的最终输出结果，因为z是一个实数向量，而我们需要的是概率向量。有一个很方便的函数可以将实数向量标准化为概率分布，也就是所有的值处于0到1之间，而且总和为1：它就是softmax函数。对于d维的向量z，softmax的定义为：
$softmax(z_i)=\;\frac{e^{z_i}}{\sum_{j=1}^de^{z_j}}\;1\leq i\leq d$
因此，如果 z = [0.6 1.1 -1.5 1.2 3.2 -1.1]，softmax(z) = [ 0.055 0.090 0.0067 0.10 0.74 0.010]。这和逻辑回归里的softmax使用方法一样。
所以我们可以这样来解释含有一个隐藏层的神经网络分类器：先把输入通过隐藏层表示为向量h，再把这个向量作为特征，传入标准的逻辑回归中来计算得到结果。比较逻辑回归和神经网络，逻辑回归需要通过特征模板人工设计特征，而神经网络虽然很像逻辑回归，但不同的是（a）有很多层，深度神经网络的结构就像多个逻辑回归分类器连在一起，（b）无需人工设计特征，最初的网络层可以自己形成特征的表示。
那么含有一个隐藏层的前馈神经网络最终的公式是：
$h=\sigma(Wx+b)$
$z = U h$
$y = s o f t m a x (z)$
这种网络被称为2层网络，传统上输入层不被当作一层。因此逻辑回归也可以称为单层网络。
对于超过2层的深度网络，我们用上标方括号来表示层数，0还是表示输入层。那么 $W^{[1]}$ 表示第1层（隐藏层）的权重矩阵， $b^{[1]}$ 表示第1层的偏置向量。 $n_j$ 表示第 j 层的单元数量。我们用 $g (\cdot)$ 表示激活函数，中间层的激活函数为ReLu或者tanh，输出层的激活函数为softmax。使用 $a^{[i]}$ 表示第i层的输出， $z^{[i]}$ 表示线性计算结果 $W^{[1]}a^{[i-1]}+b^{[i]}$ ，第0层为输入，所以输入 $x$ 一般写作 $a^{[0]}$ 。
例如，3层网络的计算过程为：
$z^{[1]}=W^{[1]}a^{[0]}+b^{[1]}$
$a^{[1]}=g^{[1]}(z^{[1]})$
$z^{[2]}=W^{[2]}a^{[1]}+b^{[2]}$
$a^{[2]}=g^{[2]}(z^{[2]})$
$\hat y = a^{[2]}$
同理，给定输入 $a^{[0]}$ ， n 层前馈神经网络的前向算法为：

for i in 1…n
$z^{[i]}=W^{[i]}a^{[i-1]}+b^{[i]}$
$a^{[i]}=g^{[i]}(z^{[i]})$
$\hat y = a^{[n]}$

其中，最后一层的激活函数 $g (\cdot)$ 一般是不同的。输出层的激活函数，二分类的话用sigmoid，多分类的话用softmax；隐藏层的激活幻术用ReLu或者tanh。

7.4 训练神经网络

前馈神经网络是有监督的机器学习，每一个观察 $x$ 对应一个真实结果 $y$ 。网络系统的输出为 $\hat y$ ，也就是对 $y$ 的预测。训练的目标是：学习每一层的权重矩阵 $W^{[i]}$ 和偏置向量 $b^{[i]}$ ，使得 $\hat y$ 尽可能地接近 $y$ 。
训练的方法与逻辑回归的训练类似。第一，我们需要一个损失函数来对系统输出和真实结果的距离建模，常用的还是交叉熵损失函数(cross-entropy loss)。第二，找到参数来最小化损失函数，我们使用梯度下降优化算法。第三，使用梯度下降需要知道损失函数的梯度，求损失函数关于每个参数的偏导，这些偏导组成一个向量，这个向量就是梯度。这里要比逻辑回归复杂，在逻辑回归中，对于每一个观察，我们可以直接关于每个参数 w 和 b 求损失函数导数。但是在有着多个层几百万参数的神经网络就难了，难点在于，如果关于第1层的某些参数求函数导数，但是损失（loss）还与后面各层相关，那我们如何通过众多的中间层求得损失（loss）？（原文：it’s much harder to see how to compute the partial derivative of some weight in layer 1 when the loss is attached to some much later layer. How do we partial out the loss over all those intermediate layers?）
答案是误差反向传播算法（error back-propagation）或者叫反向求导（reverse differentiation）。

7.4.1 损失函数

神经网络中使用的交叉熵损失函数与逻辑回归中一样。实际上，如果使用神经网络进行二分类，输出层用sigmoid，损失函数就是和逻辑回归中完全一样。
$L_{CE}(\hat y,y)=-logp(y|x)=-[ylog\hat y+(1-y)log(1-\hat y)]$
那么当神经网络作为多分类器时， $y$ 就是一个 $C$ 个类别的向量，表示真实结果的概率分布，这时的交叉熵损失就是 $L_{CE}(\hat y,y)=-\sum_{i=1}^Cy_i\log{\hat y}_i$ 我们可以进一步简化这个公式。假设这是一个硬分类任务(hard classification)，意思是正确的分类结果只有一个，y 中每一类有一个输出单元。如果正确的分类是 i ，那么向量 y 中 y_i=1，其它的元素值都是 0 。这种只有一个值为 1，其他值为 0 的向量，叫做 one-hot 向量。现在令 $\hat y$ 作为网络的输出向量，因为除了正确的类别值为 1，其他值都为 0，交叉熵损失函数就被简化成了正确类别的对数概率，也被称为负对数似然损失函数(negative log likelihood loss)：
$L_{CE}(\hat y, y)=-log\hat y_i$
代入 softmax 的公式，并且类别数为K，得到：
$L_{CE}(\widehat y,y)=-\log\frac{e^{z_i}}{\sum_{j=1}^Ke^{z_j}}$

7.4.2 计算梯度

那么我们如何来计算损失函数的梯度呢？计算梯度，需要关于每一个参数求损失函数的偏导。对于像逻辑回归一样的网络，只有一个隐层并使用sigmoid输出，我们可以直接使用损失函数的导数：

或者对于只有一个隐层并使用softmax输出的网络，我们可以使用softmax损失函数的导数：

但是这些导数只能用于最后一层的权重更新。对于深度网络，计算每一个权重的梯度要复杂得多，虽然对于损失的计算只涉及最后一层网络，但是关于权重参数的导数的计算要一直回溯到网络的最初层。
解决这个问题的算法叫做误差反向传播。虽然反向传播是针对神经网络发明的，但与一般意义上的的反向求导其实是一样的，反向求导是一种基于计算图（computaion graphs）的算法。

7.4.3 计算图

计算图是数学表达式计算过程的展示，其中计算被分解为多个独立的运算，每个运算被建模为图中节点。
试想我们来计算函数 $L (a, b, c) = c (a + 2 b)$ ，我们把加法运算和乘法运算拆分出来，并为中间输出加上名称( $d 和 e$ )，那么得到的一系列计算就是：
$d = 2 * b$ $e = a + d$ $L = c * e$
我们现在就可以将上面的计算表示为图了，每一个节点表示一个运算，有向边表示每个运算的输出作为下一个运算的输入。下图展示了计算的向前传播(forward pass)过程。在计算图的向前传播过程中，运算从左至右，将每个运算的输出结果传递到下一节点作为输入。

7.4.4 使用计算图进行反向求导

计算图的重要性来自于向后传递(backward pass)，用于计算导数来更新参数。对于上面的例子，我们的目标是：关于所有的输入变量（ $\frac{\partial L}{\partial a}，\frac{\partial L}{\partial b}，\frac{\partial L}{\partial c}$ ）求函数 $L$ 的导数。导数 $\frac{\partial L}{\partial a}$ 告诉我们 $a$ 的微小变化如何影响 $L$ 。
反向求导使用微积分中的链式法则（chain rule）。设想我们在计算复合函数 $f (x) = u (v (x))$ 的导数，那么 $f (x)$ 的导数就是 $u (x)$ 关于 $v (x)$ 的导数，乘以 $v (x)$ 关于 $x$ 的导数：
$\frac{df}{ dx}=\frac{du}{ dv}\cdot\frac{ dv}{dx}$
链式法则可以扩展到两个以上的函数。如果计算符合函数 $f (x) = u (v (w (s)))$ 的导数，那就是：
$\frac{df}{ dx}=\frac{du}{ dv}\cdot\frac{ dv}{dw}\cdot\frac{dw}{dx}$
现在我们来计算我们需要的3个导数。在计算图中， $L = c e$ ，我们可以直接计算导数 $\frac{\partial L}{\partial c}$ ：
$\frac{\partial L}{\partial c}=e$
对于另外两个，我们将用到链式法则：
$\frac {\partial L}{\partial a}=\frac {\partial L}{\partial e}\frac {\partial e}{\partial a}$ $\frac {\partial L}{\partial b}=\frac {\partial L}{\partial e}\frac {\partial e}{\partial d}\frac {\partial d}{\partial b}$
可以看到，上面的等式需要求五个中间导数： $\frac {\partial L}{\partial e},\frac{\partial L}{\partial c},\frac {\partial e}{\partial a},\frac {\partial e}{\partial d},\frac {\partial d}{\partial b}$ ，因为和的导数等于导数的和，可以求得：

在向后传递过程中，我们沿着计算图的有向边从右到左计算每一个偏导，将我们需要的偏导相乘，得到我们需要的最终导数。因此，我们从最终节点开始，在图上标注 $\frac {\partial L}{\partial L}=1$ 。然后向左走来计算 $\frac {\partial L}{\partial c}$ 和 $\frac {\partial L}{\partial e}$ 以及其它偏导，直到我们一直走到输入层，并标注了全部的偏导。当然，我们需要一些中间值来计算这些导数（比如 d 和 e），还好向前传递的过程早就计算好了这些值。下图展示了向后传递的过程。在每一个节点，我们需要计算关于其父节点的局部偏导，然后乘以从父节点传过来的偏导，然后再传递给子节点。？

神经网络的反向求导

当然，真正的神经网络的计算图要复杂得多。下图展示了一个两层的神经网络的计算图，其中 n₀=2, n₁=2, n₂=1，使用 sigmoid 作为输出单元进行二分类。计算图中的各项运算如下：

橙色的是需要更新的权重（也就是我们需要计算损失函数偏导的变量）。为了进行反向传递，我们需要知道图中所有函数的导数。我们已经知道 sigmoid 函数的导数是：
$\frac{d\sigma(z)}{dz}=\sigma(z)(1-\sigma(z))$
我们还需要其他激活函数的导数。tanh 的导数是：
$\frac{dtanh(z)}{dz}=1-tan h^2(z)$
ReLu的导数是：
$\frac{dReLu(z)}{dz}=\left\{\begin{array}{l}0\;for\;\;x<0\\1\;for\;x\geq0\end{array}\right.$

7.4.5 更多的学习细节

神经网络的优化是一个非凸优化问题，比逻辑回归更复杂，有很多成功的实践。
对于逻辑回归，我们可以初始化所有的权重和偏置为 0 。在神经网络中却相反，我们需要初始化权重为小的随机数。把输入标准化，使均值为零和方差为一，也会很有用。
使用各种形式的正则化可防止过度拟合。最重要的其中一种是dropout：网络训练过程中，随机丢弃一些单元和其连接（Hinton 2012）。调节超参数也很重要。神经网络的参数是权重 W 和偏置项 b ；它们是通过训练得到的。超参数是算法设计人员自己设定的，最优值是在开发集上不断调节得到，而不是在训练集上通过梯度下降得到。超参数包括学习率 $\eta$ ，小批量（mini-batch）的大小，模型架构（层数，每层的隐藏节点数，激活函数的选择），正则化的方法，以及其他。梯度下降本身也有许多架构变体，比如Adam。
最后，大部分现代神经网络是使用计算图来构建的，这样在基于向量的GPU上进行梯度计算和并行化将更加容易和自然。Pytorch和TensorFlow是最流行的两个。

7.5 神经语言模型

我们神经网络的第一个应用是语言建模 (language modeling)：根据前词预测后词。
基于神经网络的语言模型相比于第三章中介绍的n 元语言模型，有更多优势。比如神经语言模型不需要平滑，可以处理更长的历史信息，and they can generalize over contexts of similar words(并且它们可以概括相似单词的上下文。)?基于给定大小的训练集，神经语言模型比 n 元语言模型在预测上有更高的准确性。此外，神经语言模型是机器翻译、对话、语言生成等任务的基础。
不过，好的表现背后是较高的成本：神经网络要比传统语言模型训练速度慢得多，所以 n 元语言模型对于某些任务来说仍然是首选工具。
本章我们将介绍简单的前馈神经语言模型，最早由 Bengio(2003) 提出。不过目前的神经语言模型通常不是前馈网络而是循环网络 (recurrent)，第九章我们会介绍相关技术。
一个前馈神经语言模型是一个标准的前馈网络，在 t 时刻，输入多个前续词语的表示（ $w_{t-1}, w_{t-2},$ 等），输出后续可能词语的概率分布。正如 n 元语言模型，前馈神经语言模型通过上文的语境 $P(w_t|w^{t-1}_1)$ 估算后面词语的概率，也是基于这样的假设：前面的全部语境概率与 N 个前词的语境概率近似： $P(w_t\vert w_1^{t-1})\approx P(w_t\vert w_{t-N+1}^{t-1})$ 下面我们用 4-元语法作为例子，也就是来估算概率 $P(w_t=i|w_{t-1}, w_{t-2}, w_{t-3})$ 。

7.5.1 词嵌入

在神经语言模型中，上文语境是用前词的词嵌入来表示的。在 n 元语言模型中，上文语境是用词语本身来表示的，使用词嵌入，使得神经语言模型比 n 元语言模型有更好的泛化能力。比如，我们在训练集中有：I have to make sure when I get home to feed the cat. 但是训练集中如果没有过 “feed the dog”，那么在进行测试的时候，我们如果来预测语境 “I forgot when I got home to feed the” 后面的词语，那么 n 元语言模型会预测为“cat”，不会是“dog”。但是在神经语言模型中，鉴于 cat 和 dog 具有相似的词嵌入，模型就会给 dog 和 cat 同样高的概率，因为他们是相似的向量。
下面看一下这是如何工作的。假设我们有一个通过word2vec预训练得到的词嵌入词典 $E$ ，对于我们词汇表 $V$ 中的任一词汇，都对应一个词嵌入向量。
下图展示了一个简单的前馈神经网络模型，其中 N = 3；我们在 t 时刻有一个窗口，还有前面三个词语的词嵌入向量；这三个向量连接在一起，作为神经网络的输入 x ，网络的输出层为 softmax，输出词汇的概率分布。在输出层的第 42 个几点，表示下一个词 w_t为 $V_{42}$ 的概率，也就是词汇表中的第 42 个词语。如果我们已经使用 word2vec 的方法得到了所有的词嵌入，那么这个模型就已经是完整的了。使用其他算法来学习输入层的词嵌入表示，被称为预训练。

不过，我们常常希望在训练网络的同时得到词嵌入。This is true when whatever task the network is designed for (sentiment classification, or translation, or parsing) places strong constraints on what makes a good representation.
那么我们来看一个可以同时顺便学习词嵌入的结构。我们得额外添加一层，还要把误差一直向后传到词嵌入向量。初始词嵌入为随机值，然后慢慢调整为合理的表示。
需要处理的是输入层，上文语境有 N 个词语，每一个词语我们都用长度为 $∣ V ∣$ 的 one-hot 向量来表示。one-hot向量是这样的向量：只有一个元素的值为 1，这个元素的位置就是这个单词在词汇表中的位置，其他所有元素的值为 0。因此，toothpaste 的 onehot 表示，假设它在词汇表中的位置是 5，那么它就可以表示为 [ 0 0 0 0 1 0 0…0]， $x_5=1,\;\;x_i=0\;\;\;\;\forall i \;≠5$ 。
下图展示了语言模型在训练的时候，学习词嵌入所需要的额外一层。这里 N=3 的上文语境由3个 one-hot 向量表示，同过词嵌入矩阵 $E$ ，与嵌入层进行全连接。注意，我们不想学到3个独立的的权重矩阵来把这3个词分别投射到投射层，我们想使用一个公用的词嵌入词典 $E$ 。因为随着时间点的推移，会有更多不同词作为 w₁、w₂出现，我们只想用一个向量表示一个词，不管它出现在语境的哪个位置。于是，词嵌入矩阵 $E$ 的每一行表示一个词，每个向量的维度为 $d$ ，那么矩阵的维度就是 $V \times d$ 。

我们来看一下上图的过程：

从 E 中查询三个词的嵌入向量：给定三个上文词语，查到他们的索引，创建 3 个 one-hot 向量，然后分别与 $E$ 相乘。词汇表中的一个词 x_i ，它的词嵌入为 $Ex_i=e_i$ ，然后我们再把这三个词嵌入拼接起来作为上文词语，组成投射层
与 W 相乘：我们现在与 W 相乘（还要加上 b），通过使用非线性激活函数，送入到隐藏层 h。
与 U 相乘：隐藏层 h 再与矩阵 U 相乘。
使用 softmax：使用 softmax 之后，输出层的每一个节点 i 都估测一个概率 $P=(w_t=i|w_{t-1}, w_{t-2}, w_{t-3})$

总的来看，如果我们用 e 来表示投射层，也就是 3 个词嵌入拼接形成的层，神经语言模型的公式就是：
$e=(Ex_1, Ex_2, ...,Ex_3)$ $h=\sigma(We+b)$ $z = U h$ $y = s o f t m a x (z)$

7.5.2 训练神经网络模型

训练这个模型，也就是设定好所有的参数 $\theta=E, W, U, b$ ，我们使用梯度下降，计算图中的误差反向传播的方法计算梯度。因此训练的过程中，不仅可以设置好网络中的 W 和 U，还能在预测后词的过程中学习到词嵌入矩阵 E 。
通常，训练会把非常长的文本作为输入，将所有句子连接起来，随机设置权重，然后迭代地遍历文本预测每一 w_t 。每一个词 w_t，它的交叉熵损失为(负对数似然估计)： $L=-log\;p(w_t|w_{t-1},...,w_{t-n+1})$ 这个损失函数的梯度为：
$\theta_{t+1}=\theta_t-\eta\frac{\partial-log\;p(w_t|w_{t-1},...,w_{t-n+1})}{\partial\theta}$ 这个梯度可以使用任何一个标准的神经网络框架，使用反向传播经过 $U, W, b, E$ 求得。

7.6 总结

神经网络由神经单元构成，思想来源于人类的神经元，不过现在是一种抽象的计算机制。
每一个神经单元使输入值与权重向量相乘，加上偏置项，然后再通过一个非线性的激活函数，比如 sigmoid，tanh等。
在全连接的前馈网络中，i 层的每一个神经单元都与 i+1 层的全部神经单元相连，而且没有回路。
神经网络的强大在于早期层能够学习到表示，然后被后面的层用到。
神经网络是通过像梯度下降等优化算法进行训练。
误差反向传播，按照计算图进行反向求导，用来计算神经网络损失函数的梯度。
神经语言模型使用神经网络作为概率分类器，通过给定上文的n 个词语，预测下一个词的概率。
神经语言模型可以使用预训练的词嵌入，也可以在语言建模过程中从头开始学习词嵌入。

文献和历史说明

神经网络起源于1940年代的 McCulloch-Pitts 神经元，是一个人类神经元的简化计算模型，可以使用命题逻辑来描述。50年代末60年代初，很多实验室开始研究神经网络；这个时期感知机得到了发展(Rosenblatt, 1958)，阈值转变为偏置。?
在人们发现一个感知机单元不能解决简单的XOR问题后（Minsky&Papert，1969），神经网络开始衰退。不过此后的二十年仍然有少量的工作在继续。一直到1980年代迎来复兴，得益于像反向传播等实用工具在构建更深网络的传播(Rumelhart, 1986)。在80年代，各种各样的神经网络和相关架构被发明，尤其是在心理学、认知科学中的应用，连接主义者或者并行分布处理等术语常被提及。这个时期发展出的一些原则和技术为现在的工作打下了基础，包括分布式表示（Hinto，1986），循环网络（Elman，1990），使用 tensor 进行组合(Smolensky, 1990)。
在1990年代，大型神经网络开始应用于很多实际的语言处理任务，比如手写字识别（LeCun，1989），语音识别（Morgan，1989）。2000年代初，计算机硬件的提升加上训练和优化技术的发展，使训练大型深度网络称为可能，出现了深度学习这一术语（Hinton，2006）。
关于这个主题有很多优秀的书籍，Goldberg (2017)全面介绍了神经网络在自然语言处理中的应用。想要全面了解神经网络，看Goodfellow（2016）和Nielsen（2015）。

你可能感兴趣的:(NLP)

使用大语言模型API在AI应用中的实现 qq_37836323 人工智能语言模型自然语言处理 python
随着人工智能技术的迅速发展，大语言模型（LLM）在自然语言处理（NLP）领域的应用越来越广泛。本文将介绍如何使用大语言模型API来实现一些基础的AI应用，并提供一个简单的demo代码，帮助大家更好地理解和使用这些技术。大语言模型API简介大语言模型（如GPT-4）能够理解和生成类似人类的文本。这些模型可以应用于各种任务，包括文本生成、语言翻译、情感分析、对话系统等。为了方便国内用户访问这些强大的模
【NLP】 API在大语言模型中的应用 Nerous_ 深度学习自然语言处理语言模型人工智能
大语言模型（LargeLanguageModels,LLMs）通过API（应用程序接口）为开发者提供了便捷的调用方式，使其能够快速集成自然语言处理能力到各类应用中。以下是API在LLM中的核心应用场景及技术实现细节：一、核心应用场景自然语言理解与生成应用示例：智能客服：解析用户问题并生成回复（如ChatGPTAPI）。内容创作：自动生成文章、广告文案或代码（如OpenAI的GPT-4）。技术实现：
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
《深度剖析：BERT与GPT——自然语言处理架构的璀璨双星》人工智能深度学习
在自然语言处理（NLP）的广袤星空中，BERT（BidirectionalEncoderRepresentationsfromTransformers）与GPT（GenerativePretrainedTransformer）系列模型宛如两颗最为耀眼的星辰，引领着NLP技术不断迈向新的高度。它们基于独特的架构设计，以强大的语言理解与生成能力，彻底革新了NLP的研究与应用范式，成为学界和业界竞相探索
Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！） y江江江江机器学习大模型 gpt chatgpt
HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。在各种⼤模型开源库中，最具代表性的就是HuggingFace。HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G
详解如何通过Python的BeautifulSoup爬虫+NLP标签提取+Dijkstra规划路径和KMeans聚类分析帮助用户规划旅行路线 mosquito_lover1 python beautifulsoup 爬虫 kmeans 自然语言处理
系统模块：数据采集模块（爬虫）：负责从目标网站抓取地点数据（如名称、经纬度、描述等）数据预处理模块（标签算法）：对抓取到的地点数据进行清洗和分类。根据地点特征（如经纬度、描述文本）打上标签（如“适合家庭”、“适合冒险”）。地理数据处理模块（地图API）：使用地图API获取地点的详细信息（如地址、距离、路径等）。计算地点之间的距离或路径。路径规划模块：根据用户输入的起点和终点，规划最优路径。支持多种
大规模语言模型从理论到实践分布式训练的集群架构 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践分布式训练的集群架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，大规模语言模型（LargeLanguageModels,LLMs）在自然语言处理（NaturalLanguageProcessing,NLP）领域取得了突破性进展。LLMs，如BERT、GPT-3等，通
实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
引言近年来，深度强化学习（DRL）已经成为解决复杂决策问题的一个强有力工具，尤其是在自然语言处理（NLP）领域的广泛应用。通过不断优化决策策略，DRL能在大量数据中学习最佳行为，尤其是大型语言模型（LLM）在任务中展现出的巨大潜力。然而，随着模型规模的扩大和任务复杂性的增加，传统的强化学习算法开始暴露出训练效率低、收敛速度慢等问题。为了解决这些挑战，DeepSeek公司提出了一个新的强化学习算法—
混合整数非线性规划的松弛与分解方法 Waiyuet Fung 混合整数非线性规划松弛方法分解技术启发式算法全局优化
背景简介混合整数非线性规划（MINLPs）作为运筹学中的一个重要领域，涉及到优化问题的连续和离散变量混合，在工程设计、生产调度、资源分配等多个领域发挥着关键作用。本书由I.Nowak撰写，旨在深入探讨这一复杂的优化问题及其解决方案。MINLPs基础概念在本书的第一部分，Nowak介绍了MINLPs的基本概念。MINLPs的目标是寻找一组连续和整数变量的最优组合，以最小化或最大化某个非线性目标函数。
文本纠错（Text Correction） dundunmm 人工智能数据挖掘文本纠错人工智能数据挖掘文本纠错深度学习
文本纠错（TextCorrection）是自然语言处理（NLP）中的一个重要任务，旨在自动检测并修正文本中的错误，包括拼写、语法、语义等层面的错误。其核心目标是通过算法模型将错误文本转换为符合语言规范的表达。该任务在自动写作辅助、搜索引擎优化、智能客服、教育等多个领域具有广泛应用。输入：包含错误的原始文本（如“我明天要去北京，希望天汽好。”）输出：修正后的规范文本（如“我明天要去北京，希望天气好。
使用CharacterTextSplitter实现文本按字符拆分 bavDHAUO python
在文本处理任务中，按字符进行拆分是一种简单且有效的方法。本篇文章将介绍如何使用CharacterTextSplitter类对文本进行按字符拆分，并生成适用于下游任务的LangChainDocument对象。技术背景介绍文本拆分是自然语言处理（NLP）中的一个基础步骤，尤其在大文本分块处理、文本摘要等任务中。CharacterTextSplitter是langchain-text-splitters
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
NLP高频面试题（三）——普通RNN的梯度消失和梯度爆炸问题 Chaos_Wang_ NLP常见面试题自然语言处理 rnn 人工智能
普通RNN（循环神经网络）的梯度消失和梯度爆炸问题是指在训练深层或长序列的RNN模型时出现的两种典型问题：一、梯度消失（VanishingGradient）梯度消失是指在反向传播过程中，梯度逐层传播时变得越来越小，最终趋于接近0，导致模型前层的参数难以更新。原因：在反向传播时，每一层的梯度是通过链式法则计算得到的。因为链式求导中不断乘以一个较小的数值（小于1），随着层数或时间步的增加，梯度将指数级
使用LangChain实现大规模语言模型自发现推理结构 VYSAHF langchain 语言模型人工智能 python
使用LangChain实现大规模语言模型自发现推理结构在现代自然语言处理(NLP)的研究中，大规模语言模型（LLMs）已经展示了强大的能力。然而，在应对复杂的推理问题时，传统的提示方法常常力不从心。这篇文章将带您了解SELF-DISCOVER，一种新兴的框架，如何通过LangChain来实现自动化、动态化的推理结构构建，以提高LLMs的性能。技术背景介绍大规模语言模型（如GPT-4和PaLM2）已
【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型打酱油的葫芦娃时序预测算法时序预测 PatchTST Transformer 预训练微调表征学习
《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch，发表在ICLR2023会议上。动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型
Dify知识库构建流程及示例 cqbelt ai 笔记 AI应用
总体流程1.数据预处理清洗：去除噪声、特殊字符、标准化格式。分词/标记化：拆分文本为单词或子词单元（如使用Tokenizer）。元数据关联：附加来源、时间戳等信息，支持多维度检索。2.文本分块固定长度分块：按字符或Token数切分，简单高效。语义分块：基于句子边界或主题分割（如NLP模型识别段落主旨）。重叠策略：相邻块间部分重叠，避免上下文断裂。3.向量化（Embedding）嵌入模型：调用预训练
NLP高频面试题（四）——BN和LN的区别与联系，为什么attention要用LN Chaos_Wang_ NLP常见面试题自然语言处理人工智能
在深度学习模型中，Normalization是一种极为重要的技巧，BatchNormalization（BN）和LayerNormalization（LN）是其中最为常用的两种方法。然而，二者在实际应用中有着明显的区别与联系，尤其在Transformer的Attention机制中，LN有着独特的优势。一、BN与LN的核心区别与联系1.BatchNormalization(BN)BN的思想源于一个叫
RAG 在多模态数据处理中的应用探索：结合图像与文本生成 hy098543 AIGC
目录引言多模态数据处理的挑战与需求数据异质性与融合难题多样化应用场景的需求RAG在图像与文本生成中的应用架构图像检索与文本生成协同跨模态特征融合与生成关键技术与实现细节图像特征提取与表示文本检索与语义理解跨模态生成模型训练应用案例分析智能设计辅助医疗影像报告生成结论引言随着信息技术的飞速发展，数据呈现出多模态的特性，即包含文本、图像、音频、视频等多种形式。在自然语言处理（NLP）和计算机视觉（CV
AI在项目中的应用酒江人工智能
AI大模型（如GPT-4、BERT、T5等）在各类项目中有广泛的应用，可以极大地提高项目效率、优化流程，并解决许多传统方法难以应对的问题。以下是AI大模型在不同类型项目中的一些具体应用：1.自然语言处理（NLP）文本生成和摘要：AI大模型可以生成高质量的文本内容，自动撰写文章、新闻报道、博客或技术文档，甚至可以进行文献摘要，帮助内容创作者提高效率。情感分析：在客户服务、社交媒体监控或市场研究项目中
AI API：快速集成智能化功能的开发利器桂花饼 AIGC AI API 人工智能 AIGC 语言模型 AI作画
AIAPI（ArtificialIntelligenceApplicationProgrammingInterface，人工智能应用程序接口）是应用程序接口的一种，专门用于提供人工智能相关功能的开发接口。它允许开发者利用现有的AI模型、工具或服务，将这些功能集成到自己的应用程序中，并为用户带来智能化的体验。AIAPI的核心功能主要与AI技术相关，比如自然语言处理（NLP）、计算机视觉、语音处理、机
大模型与自然语言理解（NLU）：差异与联系技术流 Gavin AIoT python 语言模型 ai
近年来，人工智能领域取得了显著进展，尤其是在自然语言处理（NLP）方面。大模型和自然语言理解（NLU）作为NLP的两个重要分支，常常被提及，但它们之间存在着本质区别。1.定义与目标大模型:通常指拥有庞大参数规模（数十亿甚至数千亿）的深度学习模型，例如GPT-3、LaMDA等。它们通过海量文本数据进行训练，旨在学习语言的统计规律，并能够生成流畅、连贯的文本。NLU:是NLP的一个子领域，专注于让机器
基于树莓派的轻量级AI数字人开发全流程指南 ——从硬件选型到语音视觉交互实战 zhz5214 AI ai 人工智能 AI写作 AI编程智能体
1.背景与目标AI数字人，像是虚拟助手、交互式角色，在当下数字化浪潮中扮演着越来越重要的角色。其核心在于整合语音识别、视觉感知、自然语言处理（NLP）和动态反馈四大关键功能。本文将以树莓派5开发板为核心，搭配AI加速硬件，结合开源框架，为大家详细阐述如何实现本地化轻量级数字人开发。这一方案特别适用于教育领域，帮助学生更直观地理解AI技术；在智能家居场景中，也能为用户带来更智能、便捷的交互体验。2.
RAG数据嵌入和重排序：如何选择合适的模型从零开始学习人工智能深度学习
RAG数据嵌入和重排序：如何选择合适的模型在自然语言处理（NLP）领域，Retrieval-AugmentedGeneration（RAG）模型已经成为一种强大的工具，用于结合检索和生成能力来处理复杂的语言任务。RAG模型的核心在于两个关键步骤：数据嵌入（Embedding）和重排序（Re-ranking）。这两个步骤的选择和优化对于模型的性能至关重要。本文将探讨如何选择合适的模型来实现高效的数据
自然语言处理领域CCF推荐的A类期刊冰蓝蓝自然语言处理人工智能
在自然语言处理（NLP）这一蓬勃发展的领域，研究人员和学者们致力于探索语言的深层含义和应用。中国计算机学会（CCF）推荐的A类期刊和会议是该领域内公认的高质量研究发表平台。这是我在学习时整理的一些顶刊并附上官网地址直达。1.ACL(AnnualMeetingoftheAssociationforComputationalLinguistics)ACL是自然语言处理领域的顶级会议之一，由Associ
机器学习中输入输出Tokens的概念详解爱吃土豆的程序员机器学习基础机器学习人工智能 Tokens
随着深度学习技术的快速发展，大语言模型（LargeLanguageModels,LLMs）已经成为自然语言处理（NLP）领域的一个热点研究方向。这些模型不仅能够生成高质量的文本，还能在多种任务中展现出卓越的表现，比如机器翻译、问答系统、文本摘要等。在大语言模型的工作流程中，Tokens的概念扮演着至关重要的角色。本文将详细介绍大语言模型如何使用Tokens，以及如何计算Tokens的数量。什么是T
输入：0.5元/百万tokens（缓存命中）或2元（未命中）输出：8元/百万tokens 杏花春雨江南缓存
这句话描述了一种定价模型，通常用于云计算、API服务或数据处理服务中，根据资源使用情况（如缓存命中与否）来收费。以下是对这句话的详细解释：1.关键术语解释Tokens：在自然语言处理（NLP）或数据处理领域，Token通常指文本的最小单位（如一个单词或一个字符）。在这里，Tokens是计费的单位。缓存命中（CacheHit）：当请求的数据已经在缓存中时，称为缓存命中。缓存命中通常意味着更快的响应速
Ollama 基本概念 Mr_One_Zhang 学习Ollama ai
Ollama是一个本地化的、支持多种自然语言处理（NLP）任务的机器学习框架，专注于模型加载、推理和生成任务。通过Ollama，用户能够方便地与本地部署的大型预训练模型进行交互。1.模型（Model）在Ollama中，模型是核心组成部分。它们是经过预训练的机器学习模型，能够执行不同的任务，例如文本生成、文本摘要、情感分析、对话生成等。Ollama支持多种流行的预训练模型，常见的模型有：deepse
CSDN社区，到底该不该用DeepSeek AI生成文章？ Small踢倒coffee_氕氘氚 python 经验分享
##引言在当今数字化时代，人工智能（AI）技术正以惊人的速度发展，逐渐渗透到各个行业和领域。作为AI技术的一个重要分支，自然语言处理（NLP）在内容创作、文本生成等方面展现出了巨大的潜力。DeepSeekAI作为一款先进的AI写作工具，能够自动生成高质量的文章，极大地提高了内容创作的效率。然而，随着AI生成内容的普及，CSDN社区中的开发者、技术爱好者和内容创作者们开始思考一个问题：我们到底该不该
AI大模型学习路线：从入门到精通的完整指南【2025最新】 AI大模型-大飞人工智能学习大模型 LLM AI 程序员大模型学习
引言近年来，以GPT、BERT、LLaMA等为代表的AI大模型彻底改变了人工智能领域的技术格局。它们不仅在自然语言处理（NLP）任务中表现卓越，还在计算机视觉、多模态交互等领域展现出巨大潜力。本文旨在为开发者、研究者和技术爱好者提供一条清晰的学习路径，帮助读者逐步掌握大模型的核心技术并实现实际应用。一、基础阶段：构建知识体系数学与理论基础线性代数：矩阵运算、特征值与奇异值分解是大模型参数优化的基础
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l