Leon_winter

人工神经网络(ANN)

文章目录

1. 常见的神经网络
2. 全连接神经网络

2.1. 神经元
2.2. 激活函数
2.3. 参数初始化
2.4. 前行传播(Forward propagation,FP)计算结果
2.5. 反向传播(Back propagation,BP)更新权值
2.6. 全连接神经网络的一次batch训练过程

3. 损失函数

3.1. 交叉熵作为损失函数

4. 优化方法
5. 过拟合的应对

5.1. 增加数据量
5.2. 规则化项(正则化项)
5.3. dropout操作
5.4. 提前终止
5.5. 批标准化

6. 梯度消失与梯度爆炸

人工神经网络是一个模型，配套的东西还有损失函数和优化方法，这样就构成了完整的统计学习方法三要素：模型、策略、学习。

广义上，深度学习就是利用神经网络进行学习，但严格来说，非线性深层神经网络才是深度学习，由于线性神经网络无法进行异或运算，最近的研究又在不断延伸神经网络的深度和宽度，所以一般提及神经网络，说的都是非线性深层神经网络。

Deep Learning强大的地方就是可以利用网络中间某一层的输出当做是数据的另一种表达，从而可以将其认为是经过网络学习到的特征。基于该特征，可以进行进一步的相似度比较等。

Deep Learning算法能够有效的关键其实是大规模的数据，这一点原因在于每个DL都有众多的参数，少量数据无法将参数训练充分。

1. 常见的神经网络

常见的神经网络有：全连接神经网络(FCNN)、卷积神经网络(CNN)及其分支(ResNet、DenseNet等)、循环神经网络(RNN)及其分支(LSTM等)、径向基神经网络(RBF)、自动编码器(Auto Encoder)、受限玻尔兹曼机(RBM)等等。

2. 全连接神经网络

全连接神经网络是最简单、最基础的神经网络，本blog主要讲述全连接神经网络，全连接神经网络的后一层神经元，一定和前一层的所有神经元都有连接，数据流向是从前一层神经元流向后一层，全连接神经网络是一个前馈神经网络，没有闭环或回路。

2.1. 神经元

1943年，McCulloch和Pitts将生物的神经元结构用一种简单的模型进行了表示，构成了一种人工神经元模型，也就是我们现在经常用到的“M-P神经元模型”，全连接神经元利用的就是这种MP神经元，在其他神经网络中，神经元的结构会略有不同，MP神经元结构如下：

MP神经元结构可以简化成下式： $y_{j}=f(\sum\limits_{i=1}^{n}x_{i}w_{ij}+x_{0}w_{0j})=f(\sum\limits_{i=1}^{n}x_{i}w_{ij}-\theta)$

其中 $\{x_{1}\dots x_{n}\}$ 是神经元的输入； $\{w_{1j}\dots w_{nj}\}$ 是输入对应的权重， $\theta$ 是偏置， $w$ 与 $\theta$ 是神经网络重点学习的参数对象； $f (\cdot)$ 是激活函数，激活函数会在后面单独的说，经过激活函数的值，又称为激活值。

2.2. 激活函数

MP神经元中，( $\sum\limits_{i=1}^{n}x_{i}w_{ij}-\theta$ )部分是完全的线性运算，要想实现非线性，必须借助非线性的激活函数，激活函数也是整个神经网络的非线性特性的重要来源。
sigmoid函数系有两个激活函数logistic-sigmoid与tanh-sigmoid，常用的激活函数还有ReLU激活函数(Rectified Linear Unit，线性整流函数)和softplus激活函数，ReLU激活函数更贴近生物神经元的工作方式。下面给出logistic-sigmoid与tanh的函数曲线：

下面给出softplus与ReLU的函数曲线

真实的人脑神经元激活曲线是这样的

真实的人脑神经元激活曲线有一个很明显的激活阈值，而且是稀疏激活(大脑同时被激活的神经元只有1%~4%)。可见sigmoid函数系完全不像人脑，softplus函数的激活阈值并不明显，ReLU最像人脑的真实神经元激活曲线。

2.3. 参数初始化

由上面的分析，我们知道全连接神经网络的要训练的参数，主要有权值 $w$ 和偏置 $b$ ，在真正开始学习前，我们要先对参数进行初始化。

常用的初始化方法，是把这些参数按照高斯分布 $\sigma^{2})$ 进行初始化，其中 $\sigma$ 是一个很小的值，为何要引入随机性，主要是为了打破对称性，如果层与层之间的权值和偏置是一样的，那么每一层的神经元的输出结果全是一样的，神经网络的学习能力就会受限，这显然不是我们想要的结果。

2.4. 前行传播(Forward propagation,FP)计算结果

由多个MP神经元，就构成了全连接神经网络的一层，多个层组合成全连接神经网络，下面列出了一个简单的，只有一个隐层的全连接神经网络：

这是一个前馈神经网络的例子，因为这种联接图没有闭环或回路。用矩阵表示隐藏层的输出是
$\begin{aligned} \left [a_{1}^{(2)}, a_{2}^{(2)}, a_{3}^{(2)}\right ] &= \left [f(z_{1}^{(2)}), f(z_{2}^{(2)}), f(z_{3}^{(2)})\right ] \\ z_{1}^{(2)} = &\left[ x_{1}, x_{2}, x_{3}\right] \left[ \begin{matrix} w_{11}^{(2)}\\ w_{12}^{(2)}\\ w_{13}^{(2)} \end{matrix} \right] + b_{1}^{(2)}\\ z_{2}^{(2)} = &\left[ x_{1}, x_{2}, x_{3}\right] \left[ \begin{matrix} w_{21}^{(2)}\\ w_{22}^{(2)}\\ w_{23}^{(2)} \end{matrix} \right] + b_{2}^{(2)} \\ z_{3}^{(2)} = &\left[ x_{1}, x_{2}, x_{3}\right] \left[ \begin{matrix} w_{31}^{(2)}\\ w_{32}^{(2)}\\ w_{33}^{(2)} \end{matrix} \right] + b_{3}^{(2)} \end{aligned}$

值得注意的一点是，这里 $w_{ij}^{(m)}$ 表示第 $m - 1$ 层的 $j$ 单元到 $m$ 层的 $i$ 单元的权值(-1的操作)，在不同的博客中， $w_{ij}^{(m)}$ 右上角的 $m$ 值可能会表示 $m$ 层与 $m + 1$ 层的链接权值(+1的操作)，当然 $i j$ 的含义可能也有不同， $i$ 可能表示前一层的神经元，所以在看别人blog时一定要注意这一点。这篇blog中， $w_{ij}^{(m)}$ 表示第 $m - 1$ 层的 $j$ 单元到 $m$ 层的 $i$ 单元的权值。同时，用矩阵表示输出层的输出就是
$\begin{aligned} \left [a_{1}^{(3)}, a_{2}^{(3)}\right ] &= \left [f(z_{1}^{(3)}), f(z_{2}^{(3)})\right ] \\ z_{1}^{(3)} = &\left[ a_{1}^{(2)}, a_{2}^{(2)}, a_{3}^{(2)}\right] \left[ \begin{matrix} w_{11}^{(3)}\\ w_{12}^{(3)}\\ w_{13}^{(3)} \end{matrix} \right] + b_{1}^{(3)}\\ z_{2}^{(3)} = &\left[ a_{1}^{(2)}, a_{2}^{(2)}, a_{3}^{(2)}\right] \left[ \begin{matrix} w_{21}^{(3)}\\ w_{22}^{(3)}\\ w_{23}^{(3)} \end{matrix} \right] + b_{2}^{(3)} \end{aligned}$

这样从输入，一层一层计算各隐藏层的值，最后求得输出值的过程，就是全连接神经网络前向传播的过程，前向传播会得到神经网络的输出结果。

2.5. 反向传播(Back propagation,BP)更新权值

所谓传播，一定是一层一层传播，一层一层计算，这点在前向传播中也有体现，所以BP算法需要找到层与层之间的迭代关系。对于前向传播得到的结果，我们会与真实值进行比较，这里利用最简单的平方损失函数为例， $\frac{1}{2}||h(x,w,b)-y||^{2} = \sum\limits_{i=1}^{S_{n}}\frac{1}{2}(h(x_{i},w,b)-y_{i})^{2}$

， $h (x, w, b)$ 是神经网络对输入 $x$ 的输出， $y$ 是期望输出， $w$ 是神经网络的权值， $b$ 是神经网络的偏置， $S_{n}$ 是输出层的神经元个数，也就是一共有 $S_{n}$ 个输出。同时为了增加其鲁棒性，加入了规则化项。 $\frac{1}{2}||h(x,w,b)-y||^{2}+\frac{\lambda}{2} \sum\limits_{l=1}^{n}\sum\limits_{i=1}^{S_{l}}\sum\limits_{j=1}^{S_{l-1}}(w_{ij}^{(l)})^{2}$

其中， $\lambda$ 是超参数，用于控制规则化项对损失的影响， $n$ 是神经网络的隐藏层和输出层的总计层数， $S_{l}$ 与 $S_{l-1}$ 是第 $l$ 层与 $l - 1$ 层的神经元数，在规则化项中不包含偏置 $b$ ，根据blog说明，一般来说，将偏置项包含在规则化项(权重衰减项)中只会对最终的神经网络产生很小的影响。优化方法利用批量随机梯度下降法(Mini-batch SGD)，一批有m个数据，则对权值 $w$ 和偏置 $b$ 的更新如下： $w_{ij}^{(l)} =w_{ij}^{(l)} + \alpha [\frac{1}{m}(\sum\limits_{t=1}^{m} \frac{\partial J(h(x_{t},w,b),y_{t})}{\partial w_{ij}^{(l)}})] \\ b_{i}^{(l)} =b_{i}^{(l)} + \alpha [\frac{1}{m}(\sum\limits_{t=1}^{m} \frac{\partial J(h(x_{t},w,b),y_{t})}{\partial b_{i}^{(l)}})]$

其中， $\alpha$ 是学习步长(学习率)，属于超参数，所以关键就是求 $\frac{\partial J(h(x_{t},w,b),y_{t})}{\partial w_{ij}^{(l)}}$ 与 $\frac{\partial J(h(x_{t},w,b),y_{t})}{\partial b_{i}^{(l)}}$ 。为了进一步求解这两个导数式子，就是反向传播算法的精髓了，需要灵活的运用复合函数的链式求导法则以及多元复合函数的链式求导法则。注意下面的推导， $x_{t}$ 的 $t$ 省略，即我们不考虑输入输出是batch中的第几个。

损失函数对权值的偏导数变换如下： $\begin{aligned} \frac{\partial J(h(x,w,b),y_{t})}{\partial w_{ij}^{(l)}} &= \frac{\partial J(h(x,w,b),y_{t})}{\partial z_{i}^{(l)}} \frac{\partial z_{i}^{(l)}}{\partial w_{ij}^{(l)}}\\ \end{aligned}$

令残差 $\delta_{i}^{(l)}$ 为 $\begin{aligned} \delta_{i}^{(l)} = \frac{\partial J(h(x,w,b),y_{t})}{\partial z_{i}^{(l)}} \\ \end{aligned}$

同时根据前向传播 $\begin{aligned} z_{i}^{(l)} = \sum\limits_{m=1}^{S_{l-1}}(a_{m}^{(l-1)}w_{im}^{(l)})+b_{i}^{(l)}=\sum\limits_{m=1}^{S_{l-1}}(f(z_{m}^{(l-1)})w_{im}^{(l)})+b_{i}^{(l)}\\ \end{aligned}$

则权值的偏导数可以进一步变换为 $\begin{aligned} \frac{\partial J(h(x,w,b),y_{t})}{\partial w_{ij}^{(l)}} &= \frac{\partial J(h(x,w,b),y_{t})}{\partial z_{i}^{(l)}} \frac{\partial z_{i}^{(l)}}{\partial w_{ij}^{(l)}}\\ &= \delta_{i}^{(l)} \frac{\partial (\sum\limits_{m=1}^{S_{l-1}}(f(z_{m}^{(l-1)})w_{im}^{(l)})+b_{i}^{(l)})}{\partial w_{ij}^{(l)}} \\ &= \delta_{i}^{(l)} f(z_{j}^{(l-1)})\\& = \delta_{i}^{(l)} a_{j}^{(l-1)} \tag{1} \end{aligned}$

其中 $a_{j}^{(l-1)}$ 是在前向传播中， $l - 1$ 层第 $j$ 个神经元的激活值，属于已知值。

误差函数对偏置的偏导数可以进一步变化为 $\begin{aligned} \frac{\partial J(h(x,w,b),y_{t})}{\partial b_{i}^{(l)}} &= \frac{\partial J(h(x,w,b),y_{t})}{\partial z_{i}^{(l)}} \frac{\partial z_{i}^{(l)}}{\partial b_{i}^{(l)}}\\ &= \delta_{i}^{(l)} \frac{\partial (\sum\limits_{m=1}^{S_{l-1}}(f(z_{m}^{(l-1)})w_{im}^{(l)})+b_{i}^{(l)})}{\partial b_{i}^{(l)}} \\ &= \delta_{i}^{(l)}\tag{2} \end{aligned}$

根据(1)(2)两个式子，我们可以看出来，如果 $\delta_{i}^{(l)}$ 已知，那么根据(1)(2)两式，可以求出损失函数在所有权值和偏置处的偏导数，就可以利用Mini-batch SGD的公式更新权值和偏置。已知 $\begin{aligned} \delta_{i}^{(l)} = \frac{\partial J(h(x_{t},w,b),y_{t})}{\partial z_{i}^{(l)}} \\ \end{aligned}$

则当 $l = n$ ，即最后一层第 $i$ 个神经元的残差 $\delta_{i}^{(n)}$ 为： $\begin{aligned} \delta_{i}^{(n)} &= \frac{\partial J(h(x_,w,b),y_{t})}{\partial z_{i}^{(n)}} \\ &= \frac{\partial \frac{1}{2} \sum\limits_{j=1}^{S_{n}}(f(z_{j}^{(n)})-y_{j})^{2}}{\partial z_{i}^{(n)}} \\ &=(f(z_{i}^{(n)})-y_{i}) f'(z_{i}^{(n)})\tag{3} \end{aligned}$

$f(z_{i}^{(n)})、y_{i}、f'(z_{i}^{(n)})$ 均是已知的，所以 $\delta_{i}^{(n)}$ 已知，下面利用类似数学归纳法的思想，推导 $\delta^{(l)}$ 与 $\delta^{(l+1)}$ 的关系。我们假设 $\delta_{i}^{(l+1)}, i=1,2\dots S_{l+1}$ 已知，则 $\begin{aligned} \delta_{i}^{(l)} &= \frac{\partial J(h(x,w,b),y)}{\partial z_{i}^{(l)}} \\ &= \sum\limits_{j=1}^{S_{l+1}}\frac{\partial J(h(x,w,b),y)}{\partial z_{j}^{(l+1)}} \frac{\partial z_{j}^{(l+1)}}{\partial z_{i}^{(l)}} \end{aligned}$

这里利用了多元函数的链式求导法则，可以把损失函数看成 $z_{j}^{(l+1)}$ 的函数， $J=g(z_{1}^{(l+1)},z_{2}^{(l+1)} \dots z_{S_{l+1}}^{(l+1)})$ ，所有的 $z_{j}^{(l+1)}$ 都包含因变量 $z_{i}^{(l)}$ 。如果不是全连接，这里就是 $l$ 层第 $i$ 个神经元与 $l + 1$ 层的神经元有多少链接，就有多少项。所以 $\begin{aligned} \delta_{i}^{(l)} &= \sum\limits_{j=1}^{S_{l+1}}\frac{\partial J(h(x,w,b),y)}{\partial z_{j}^{(l+1)}} \frac{\partial z_{j}^{(l+1)}}{\partial z_{i}^{(l)}} \\ &= \sum\limits_{j=1}^{S_{l+1}}\delta_{j}^{(l+1)}\frac{\partial z_{j}^{(l+1)}}{\partial z_{i}^{(l)}} \\ &= \sum\limits_{j=1}^{S_{l+1}}\delta_{j}^{(l+1)}\frac{\partial (\sum\limits_{m=1}^{S_{l}}(f(z_{m}^{(l)})w_{jm}^{(l+1)})+b_{j}^{(l+1)})}{\partial z_{i}^{(l)}} \\ &= \sum\limits_{j=1}^{S_{l+1}}\delta_{j}^{(l+1)}f'(z_{i}^{(l)})w_{ji}^{(l+1)} \tag{4}\\ \end{aligned}$

所以根据 $\delta^{(l+1)}$ ，可以求出 $\delta_{i}^{(l)}$ ，又最开始的 $\delta_{i}^{(n)}$ 可以求出，所以所有的残差 $\delta$ 均可以求出来。进而公式(1)(2)可以求出对权值和偏置的偏导数，进而由mini_batch SGD可以更新权值和偏置。

公式(4)是整个BP算法的核心公式。由于公式(4)的迭代特性，BP算法叫做反向“传播”算法。

2.6. 全连接神经网络的一次batch训练过程

对batch中的m条数据，分别通过前向传播计算其输出、各层经过激活函数前的z值以及经过激活函数后的激活值；
对batch中的m条数据，分别根据公式(3)(4)计算残差 $\delta$ ；
对batch中的m条数据，分别根据公式(1)(2)计算权值和偏置的偏导数；
利用mini-batch SGD的更新公式，更新权值和偏置。

3. 损失函数

可供选择的损失函数有很多种，对于分类问题，常用交叉熵(CrossEntropy)作为损失函数; $H(A,B)=\sum\limits_{i=1}- p_{A}(x_{i})log(p_{B}(x_{i}))$

对于回归问题，常用均方误差(mean squared error，MSE)作为损失函数 $\frac{\sum\limits_{i=1}^{n}(h(x_{i})-y_{i})^{2}}{2n}$

3.1. 交叉熵作为损失函数

我按照知乎讨论以及一篇Blog中，关于交叉熵的讨论来解释交叉熵作为损失函数的合理性，先介绍熵，然后介绍KL散度，最后推出交叉熵在满足一定条件下可以替代KL散度。

我们先探讨熵的意义，总所周知的是，熵可以表示信息的不确定性，也可以表示信息的信息量，熵越大，信息的不确定性越大，所含信息量也越多。以通信领域为例，信源A在下一时刻可以在一个符号集中选择任何一个来传输，该符号集表示为 $\{x_{1} ,x_{2},x_{3}\dots \}$ ，传输的可能性分别是 $\{p(X=x_{1}) ,p(X=x_{2}),p(X=x_{3})\dots \}$ ，其中 $X$ 是信源A在下一时刻所传符号的随机变量。我们想设计一个指标来衡量这种不确定性或者信息量的多少，这个指标是关于概率 $p$ 的函数，我们用 $f (p)$ 表示这个指标，同时这个指标应该满足下面的性质：

1.负相关：与概率 $p$ 的变化方向相反，即概率 $p$ 越高， $f (p)$ 越低，当 $p(X=x_{i})=1$ ，则要求 $f(p(X=x_{i}))=0$ ，即下一时刻传输的符号一定是 $x_{i}$ ，已经完全确定，所以不确定性为0，信息量也为0；

2.可加性：同时这个指标具有可加性，假设还存在另一个信源B，下一时刻所传符号的随机变量为 $Y$ ， $X, Y$ 相互独立，则 $f (p (X = a) p (Y = b)) = f (p (X = a)) + f (p (Y = b))$ 。

结合上面两个性质，我们不难找到 $f (p) = - l o g (p)$ 来表示这一指标，即对于信源A，我们定义单个符号 $x_{i}$ 的不确定性或信息量为 $f(p(X=x_{i}))=-log(p(X=x_{i}))$ ，该式理解为符号的概率越大，下一时刻传这个符号的概率也越大，即下一时刻传这个符号的不确定性就小，真传了这个符号，我们也不惊讶，所以其信息量也小。那么整个信源的不确定性或信息量就可以定义成单个符号不确定性或信息量的期望，即 $H(X)=\sum\limits_{i=1}- p(X=x_{i})log(p(X=x_{i}))$

值得一体的是，熵一般衡量离散信源，对于连续信源的情况，不确定性或信息量无限大。

接着我们看KL散度，KL散度用于衡量两个随机变量概率分布的差异，如果两个分布完全一样，例如均是 $N (0, 1)$ 的高斯分布，其KL散度值应是0，所以KL散度可以作为损失函数，比较模型输出与真实值的分布差异。对于离散随机变量A，B，KL散度定义如下 $\begin{aligned} D_{KL}(A||B)&=\sum\limits_{i=1} p_{A}(x_{i})log(\frac{p_{A}(x_{i})}{p_{B}(x_{i})})\\ &=-\sum\limits_{i=1} -p_{A}(x_{i})log(p_{A}(x_{i})) +\sum\limits_{i=1}- p_{A}(x_{i})log(p_{B}(x_{i}))\\ \end{aligned}$

KL散度不满足交换律，即 $D_{KL}(A||B)~\neq~D_{KL}(B||A)$ 。同时，不难看出KL散度有两部分构成，第一部分就是A的熵，第二部分就是交叉熵，所以KL散度可以写成下式 $D_{KL}(A||B)=H(A,B)-H(A)$

当 $H (A)$ 是一个常数时，KL散度和交叉熵的度量特性一致，而在机器学习中，H(A)一般是训练集的分布，也确实是一个常数值。由于交叉熵更简单，所以我们用交叉熵替代KL散度用于损失函数。

连续分布的KL散度定义如下 $\begin{aligned} D_{KL}(A||B)&=\int p_{A}(x)log(\frac{p_{A}(x)}{p_{B}(x)}) dx\\ \end{aligned}$ 其余分析类似

这里用概率分布说明一下真实分布 $P (r e a l)$ ，训练集分布 $P (t r a i n i n g)$ 和模型的输出分布 $P (m o d e l)$ 的关系，由于我们一般很难知道真实分布，所以会用训练集的分布来近似当做真实分布，即 $\simeq P(training)$ ，我们训练的目的，也是让模型的输出分布接近训练集分布，即 $\simeq P(training)$ ，所以我们通过这种传递建立了模型输出分布与真实分布的脆弱关系 $\simeq P(training)\simeq P(model)$ 为何是脆弱关系？因为model既不能十分接近训练集的分布(过拟合)，也不能十分不符合训练集的分布(学习失败)。

值得一提的是，说是概率分布，训练集的概率分布要更加的极端，例如在分类问题中，输入是 $\{x_{1}, x_{2} \dots \}$ ，一共3个类别，神经网络输出层也有3个输出，对应这3个类别。如果在训练集中，输入是 $\{x_{1}, x_{2} \dots \}$ 的类别是 $y_{2}$ ，则训练集概率分布是 $P_{training}(x_{1}, x_{2} \dots ;y_{1}=1, y_{2}=0,y_{3} = 0)=0 \\ P_{training}(x_{1}, x_{2} \dots ;y_{1}=0, y_{2}=1,y_{3} = 0)=1 \\ P_{training}(x_{1}, x_{2} \dots ;y_{1}=0, y_{2}=0,y_{3} = 2)=0 \\$

也就是在训练集中是就是是，不是就是不是。而神经网络学习的就是这样的分布，即对于同样的输入，输出的 $P_{model}(x_{1}, x_{2} \dots ;y_{1}=0, y_{2}=1,y_{3} = 0)$ 要尽可能的大(接近1)，其余类别的输出尽可能小(接近0)。

4. 优化方法

优化方法有很多，最基本的要属BGD，BGD在机器学习中也很常见，在其基础上提出了SGD以及使用更广泛的进化版本mini-batch SGD，mini-batch SGD的方法在上面计算反向传播时有用到，大体就是先对数据进行shuffle，然后分成M批数据，每一批有m个数据，以批为单位进行训练(本blog的2.6中的步骤)，当把这M批数据全部训练一遍，就算一次epoch。GD的基本思想是更新下面的式子。 $\theta = \theta - \alpha \frac{\partial J}{\partial \theta}$ 其中 $\alpha$ 是学习率(步长)。

但mini-batch SGD速度还是偏慢，因此提出了改进方法Momentum和Adagrad，综合Momentum和Adagrad的优点，又提出了RMSProp和Adam，大多数时候，使用Adam可以又快又好的收敛。除此之外，还有adadelta、NAG等方法。

5. 过拟合的应对

5.1. 增加数据量

增加数据量，也就是说我们让 $P (t r a i n i n g)$ 无限接近于 $P (r e a l)$ ，这样我们的模型在逼近训练集时，同时也更加的逼近真实情况了。

5.2. 规则化项(正则化项)

像传统机器学习方法一样，对损失函数加上一个规则化项，上面在推导反向传播算法时，也考虑了这样的操作。
常见的正则化方法有L1,L2正则化法。

5.3. dropout操作

在一次训练前，我们随机忽略一些神经元及其链接，用剩下的神经网络进行学习。在下次训练前，把上一次忽略的神经元及其链接补回，再随机忽略一些神经元及其链接，再用剩下的神经网络进行学习，这样来回迭代。通过这种方法，训练的神经网络不会过分依赖神经网络中的某些特定部分，也就是说，训练好的神经网络中，不会存在某些部分的权值或者偏置很大。
最终输出的模型，一定要是最完整的神经网络。

5.4. 提前终止

通过观察验证集，当验证集的误差呈现增大趋势，我们就提前终止模型的训练。

5.5. 批标准化

另一篇blog专门去说。

6. 梯度消失与梯度爆炸

在BP算法中，根据公式(3)(4)，我们知道偏导数中存在激活函数 $f (\cdot)$ 的导数以及权值 $w$ ，如果激活函数是logistic-sigmoid或者tanh函数，它们的导数值域均在[0,1]之间，所以随着层数的增多，反向传播会持续缩小残差 $\delta$ 的值，造成远离输出层的权值与偏差的梯度不断的缩小(根据公式(1)(2))，从深层网络角度来讲，不同的层学习的速度差异很大，表现为网络中靠近输出的层学习的情况很好，靠近输入的层学习的很慢，有时甚至训练了很久，前几层的权值和刚开始随机初始化的值差不多，导致靠近输入层的隐层相当于只是映射层，对所有的输入做了一个函数映射，这时此深度神经网络的学习就等价于只有靠近输出层的隐藏层网络在学习，这就是梯度消失现象。同理，如果初始化的权值 $w$ 很大，造成反向传播过程中 $l$ 层残差 $\delta$ 一定大于 $l + 1$ 层，这种大于会以指数增长的形式累计下去，就造成了梯度爆炸，靠近神经网络输入层的权值或偏置的偏导数巨大，更新速度过快。相对来说梯度消失现象更容易出现。

造成梯度消失或爆炸的根源是反向传播机制(成也反向传播！败也反向传播？)，直接原因是激活函数的不合适以及较深的网络结构。

最简单的梯度消失问题解决方法就是使用导数值域较宽的激活函数，例如ReLU函数、softplus函数等。当然还有一种有效的解决梯度消失问题的方法，就是批标准化。

参考文献：
《TensorFlow 实战Google深度学习框架》
神经网络的类别：https://baijiahao.baidu.com/s?id=1590362274035183205&wfr=spider&for=pc
M-P神经元模型： https://www.cnblogs.com/xueqiuqiu/articles/7606293.html
激活函数：https://www.jianshu.com/p/68d44a4295d1
反向传播：https://blog.csdn.net/qq_29762941/article/details/80343185
反向传播：https://blog.csdn.net/qq_32865355/article/details/80260212
GD优化方法：https://www.cnblogs.com/wujingqiao/p/9559969.html
交叉熵：https://www.zhihu.com/question/65288314
交叉熵：https://blog.csdn.net/tsyccnh/article/details/79163834
过拟合：https://www.cnblogs.com/bonelee/p/8993812.html
梯度消失、爆炸：https://blog.csdn.net/qq_25737169/article/details/78847691
梯度消失、爆炸：https://www.cnblogs.com/pinking/p/9418280.html

计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
深度学习模型性能全景评估与优化指南 niuTaylor 深度学习人工智能
深度学习模型性能全景评估与优化指南一、算力性能指标体系1.核心算力指标对比指标计算方式适用场景硬件限制TOPS(TeraOperationsPerSecond)每秒万亿次整数运算量化模型推理NVIDIAJetsonNano仅支持FP16/FP32TFLOPS(TeraFLoating-pointOPerationsperSecond)TFLOPS=Cores×FLOPs/Cycle×Frequen
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
【深度学习】DeepSeek模型介绍与部署 Nerous_ 深度学习深度学习人工智能
原文链接：DeepSeek-V31.介绍DeepSeek-V3，一个强大的混合专家(MoE)语言模型，拥有671B总参数，其中每个token激活37B参数。为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3首次提出了无辅助损失的负载平衡策略，并设置了多to
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
【DNN量化工具】QKeras 工具简介 kanhao100 笔记 dnn 人工智能神经网络
QKeras工具简介QKeras是一个用于量化深度学习模型的Keras扩展库，旨在使深度学习模型的量化（即将模型的浮点权重转换为低精度格式）变得简单而高效。QKeras主要目标是优化模型的存储和推理速度，特别适用于需要在资源受限的设备（如移动设备和嵌入式系统）上运行深度学习模型的场景。QKeras的主要特点量化支持：QKeras提供了对不同类型量化的支持，包括权重量化和激活量化。用户可以根据需求选
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
QKeras、Brevitas和QONNX量化工具对比 kanhao100 笔记深度学习边缘计算
QKeras、Brevitas和QONNX量化工具对比一、引言在深度学习模型部署领域，量化技术已成为提升模型执行效率的关键手段。通过将浮点权重转换为低精度表示，量化能显著减小模型体积、降低内存占用并加速推理过程。对于资源受限的设备（如移动设备、嵌入式系统和边缘计算设备），量化技术尤为重要。本文深入对比三款主流量化工具：QKeras、Brevitas和QONNX，从用户实际应用角度剖析它们的技术特点
Umi-OCR：解锁高效文字识别的新时代水熠芝Dark-Haired
Umi-OCR：解锁高效文字识别的新时代Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda项目介绍在数字化浪潮席卷全球的今天，文字识别技术已成为提升工作效率和生活质量的关键工具。Umi-OCR，作为一款基于深度学习技术的开源文字识别工具，凭借其强大的功能和高效的性能，迅速成为众多用户的首选。无
Umi-OCR：一款强大而高效的文字识别工具裘心国Trent
Umi-OCR：一款强大而高效的文字识别工具Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda介绍Umi-OCR是一款基于深度学习技术的开源文字识别工具，特别适合日常办公、学术研究及数据分析等场景。它能有效解决将图像中的文字快速转化为可编辑文本的需求，极大提升工作效率。此工具依托于先进的计算机
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
关于误差平面小记文弱_书生乱七八糟平面算法神经网络机器学习
四维曲面的二维切片：误差平面详解在深度学习优化过程中，我们通常研究损失函数（LossFunction）的变化，试图找到权重的最优配置。由于神经网络的参数空间通常是高维的，我们需要使用低维可视化的方法来理解优化过程和误差平面（ErrorSurface）。在这里，我们讨论一个四维曲面的二维切片，其中：三个维度是网络的权重（w1,w2,w3w_1,w_2,w_3w1,w2,w3）。第四个维度是误差（损失
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
Marker可以快速且准确地将PDF转换为markdown格式。星霜笔记开源关注简介免费源码 pdf
MarkerMarker可以快速且准确地将PDF转换为markdown格式。支持多种文档类型（针对书籍和科学论文进行了优化）支持所有语言移除页眉/页脚/其他杂质格式化表格和代码块提取并保存图像以及markdown将大多数方程转换为latex支持在GPU、CPU或MPS上运行工作原理Marker是一个由深度学习模型组成的管道：提取文本，必要时进行OCR处理（启发式算法，surya，tesseract
Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！） y江江江江机器学习大模型 gpt chatgpt
HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。在各种⼤模型开源库中，最具代表性的就是HuggingFace。HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G
Open-Sora - 为所有人实现高效的视频制作大众化小众AI AI开源音视频人工智能 AI编程
GitHub：https://github.com/hpcaitech/Open-Sora更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI这是一款开源的SOTA（State-of-the-Art）视频生成模型，仅用20万美元（224张GPU）就能训练出商业级11B参数的视频生成大模型。它采用Python语言和PyTorch深度学习框架开发，具有生成速度快、资源消
Adam-mini：深度学习内存效率新突破 XianxinMao 人工智能深度学习人工智能
标题：Adam-mini：深度学习内存效率新突破文章信息摘要：Adam-mini优化器在深度学习领域展现出突破性潜力，尤其在内存效率和计算性能上表现卓越。相比AdamW，Adam-mini将内存效率提升了一倍，并通过减少学习率数量显著降低了内存消耗，同时保持了与AdamW相当甚至更好的性能。在训练十亿参数级别的大语言模型（LLM）时，Adam-mini实现了49.6%的吞吐量提升，并减少了33%的
Transformer与图神经网络的融合与应用 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Transformer与图神经网络的融合与应用关键词：Transformer,图神经网络,注意力机制,图结构数据,图表示学习,图分类,图生成1.背景介绍近年来，深度学习技术在各个领域取得了显著的进展。其中，Transformer模型和图神经网络（GraphNeuralNetworks,GNNs）是两个备受关注的研究方向。Transformer最初应用于自然语言处理领域，通过自注意力机制实现了并行计
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
高性能计算:GPU加速与分布式训练 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的飞速发展，深度学习模型的规模和复杂度不断提升，对计算能力的需求也越来越高。传统的CPU架构已经难以满足深度学习模型训练的需求，因此，GPU加速和分布式训练成为了高性能计算领域的研究热点。1.1.深度学习与计算挑战深度学习模型通常包含数百万甚至数十亿个参数，训练过程需要进行大量的矩阵运算和梯度更新，对计算资源的需求非常高。传统的CPU架构虽然具有较强的通用性，但其并行计
使用 MistralAI 平台进行开源模型托管与调用 VYSAHF python
MistralAI是一个提供开放源码模型托管的平台，致力于帮助开发者更轻松地使用和管理开源模型。通过该平台，你可以方便地调用强大的深度学习模型，并将其集成到你的应用中。本文将带你了解如何利用MistralAI提供的服务来进行模型的托管和调用。技术背景介绍MistralAI的服务包括了如聊天模型和嵌入模型等，这些模型适用于聊天机器人、文本嵌入等各种场景。使用这些模型需要注册并获取一个有效的API密钥
暗光增强技术研究进展与产品落地综合分析（2023-2025） AndrewHZ 深度学习新浪潮图像处理算法动态范围计算机视觉深度学习 transformer 暗光增强
一、引言暗光增强技术作为计算机视觉与移动影像领域的核心研究方向之一，近年来在算法创新、硬件适配及产品落地方面取得了显著进展。本文从技术研究与产业应用两个维度，系统梳理近三年（2023-2025）该领域的关键突破，并对比分析主流手机厂商的影像技术优劣势。二、暗光增强技术研究进展1.算法创新：从传统模型到深度学习（1）Retinex理论的深度结合清华与ETH联合提出的Retinexformer（202
金融风控算法透明度与可解释性优化智能计算研究中心其他
内容概要金融风控算法的透明化研究面临模型复杂性提升与监管合规要求的双重挑战。随着深度学习框架在特征提取环节的广泛应用，算法可解释性与预测精度之间的平衡成为核心议题。本文从联邦学习架构下的数据协作机制出发，结合特征工程优化与超参数调整技术，系统性分析逻辑回归、随机森林等传统算法在召回率、F1值等关键指标上的表现差异。研究同时探讨数据预处理流程对风控决策鲁棒性的影响，并提出基于注意力机制的特征权重可视
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多