一骑走烟尘

深度学习基本知识介绍、CNN/RNN/LSTM/GRU神经网络原理

文章目录

机器学习定义
训练误差/泛化误差/假设空间
为什么利用训练集生成的模型可以用来预测测试集的数据？
Error来源分析
奥卡姆剃刀原理
没有免费的午餐定理
上采样与下采样
dropout层作用
模型评估方法:Holdout检验、k折交叉验证、自助法
判别模型和生成模型
L1正则化/L2正则化

L1与L2正则化的区别:优化角度
L1与L2正则化的区别:梯度角度

深度学习训练、调参Tips
批标准化（Batch Normalization）
特征标准化
为什么交叉熵损失可以提高具有 sigmoid 和 softmax 输出的模型的性能，而使用均方误差损失则会存在很多问题
softmax函数在框架中计算时的优化
激活函数的作用
relu函数的作用
反向传播的过程
CNN神经网络原理概述
1x1卷积的作用
CNN神经网络feature map尺寸计算
RNN神经网络原理概述
LSTM神经网络原理概述
GRU神经网络原理概述

机器学习定义

对于某类任务T和性能度量P，一个计算机程序被认为可以从经验E中学习是指，通过经验E改进后，它在任务T上由性能度量P衡量的性能有所提升。

训练误差/泛化误差/假设空间

训练误差：模型在训练集上的误差。
泛化误差：模型在测试集上的误差。
假设空间：算法可以选择的函数的总数量。

为什么利用训练集生成的模型可以用来预测测试集的数据？

我们假设数据之间是相互独立的（即数据独立同分布假设），而数据都是由某个概率分布函数生成，因此在训练数据（已知）上表现很好的算法，在测试数据（未知）上依然能够表现得很好。

Error来源分析

Error = bias + variance + noise。
bias描述的是模型在训练集上拟合的好不好:拟合的好就是low bias，模型就较为复杂，参数较多，容易过拟合，使得模型在测试集上的预测具有high variance；拟合的不好就是high bias，模型较为简单，参数较少，容易欠拟合，但是这样的模型由于对数据变化不那么敏感（不管是训练数据还是测试数据），因此在测试集上的预测具有low variance。
因此，想让模型的训练误差小（low bias）就要更复杂的模型，但容易造成过拟合，在测试样本上出现high variance；想让模型的测试误差小（low variance），则模型要简单一点，这样泛化能力才强，但容易出现high variance。

奥卡姆剃刀原理

若有多个假设与观察一致，则选最简单的那个假设。

没有免费的午餐定理

在所有可能的数据生成分布上平均之后，每一个分类算法在未事先观测的点上都有相同的错误率。通俗来说，就是针对某一域的所有问题，所有算法的期望性能是相同的。
假如学习算法La在某些问题上比学习算法Lb要好，那么必然存在另一些问题，在这些问题中Lb比La表现更好。这里说的表现好就是模型泛化能力更强。因此，脱离具体的问题，考虑所有潜在的问题，则所有的学习算法都一样好。要谈论算法的相对优劣，必须要针对具体的学习问题，在某些问题上表现好的学习算法在另一些问题上可能不尽如人意。

上采样与下采样

在机器学习中，采样用来训练的数据集时，如果抛弃一部分样本，称为下采样，如果一部分样本重复采样，称为上采样/过采样；在图像识别中，缩小图像称为下采样，放大图像称为上采样。

dropout层作用

在隐藏层卷积和池化过后，按一定的比例保留神经元的值，其他神经元值置为0，因此本次迭代反向传播时，这些值为0的神经元的梯度会被计算为0，它们的权重本次迭代时不会更新。而非零值神经元，它们的值要除以这个比率，相当于值被放大了，因此计算出来的梯度也放大了，梯度下降时权重更新的幅度变大了。
dropout层只在训练时开启，使用dropout层训练时可以减轻过拟合，但会延长训练的时间。在测试时，不要打开dropout层。

模型评估方法:Holdout检验、k折交叉验证、自助法

Holdout检验:
将原始的样本集合随机划分成训练集和验证集两部分。一般按训练集:验证集=7:3划分。
k折交叉验证:
将全部样本划分成k个大小相等的样本子集；使用k次，第i次把第i个子集作为验证集，其余所有子集作为训练集，进行模型的训练和评估；最后把k次评估指标的平均值作为最终的评估指标。在实际实验中，k经常取10。
自助法:
每一次训练迭代（iteration）都有放回地从一个总数n的样本中抽取m个样本（batch size），进行n/m次迭代后称为一次epoch（即我们一共用了整个数据集大小数量的样本进行了训练）。
在自助法的采样过程中，对n个样本进行n次自助抽样，当n趋于无穷大时，最终有多少数据从未被选择过？
$\lim_{n \rightarrow \infty}(1-\frac{1}{n})^{n}=\lim_{n \rightarrow \infty} \frac{1}{(1+\frac{1}{n-1})^{n}}=\frac{1}{\mathrm{e}} \approx 0.368$

判别模型和生成模型

生成模型：学习得到联合概率分布P（x,y），即特征x和标记y共同出现的概率，然后求条件概率p（y|x）。如贝叶斯分类器，注意贝叶斯分类器实际是通过求p（x|c）和p（c）来求得p（x,c）。
判别模型：学习得到条件概率分布P（y|x），也就是特征x出现的情况下标记y的出现概率。
生成模型需要的数据量比较大，能够较好地估计概率密度；而判别模型对数据样本量的要求没有那么多。由生成模型可以得到判别模型，但由判别模型得不到生成模型。

L1正则化/L2正则化

适定问题：
即指定解满足下面三个要求的问题:解是存在的；解是唯一的；解连续依赖于定解条件，即解是稳定的。这三个要求中，只要有一个不满足，则称之为不适定问题。
正则化方法:
求解不适定问题的普遍方法是用一组与原不适定问题相“邻近”的适定问题的解去逼近原问题的解,这种方法称为正则化方法。
正则化就是对最小化经验误差函数上加约束，这样的约束可以解释为先验知识（正则化参数等价于对参数引入先验分布）。约束有引导作用，在优化误差函数的时候倾向于选择满足约束的梯度减少的方向，使最终的解倾向于符合先验知识。
L1正则化项即所有权重的绝对值之和。L2正则化项即所有权重的平方之和。当我们在损失函数中加入正则化项时还要乘以一个λ。
L1 正则化可以产生更稀疏的权值矩阵，可以用于特征选择，同时一定程度上防止过拟合；L2正则化主要用于防止模型过拟合。
L1 正则化适用于特征之间有关联的情况；L2 正则化适用于特征之间没有关联的情况。

L1与L2正则化的区别:优化角度

L1正则化的最优化问题等价于:
$\min_{w} L(w)=\min_{w}\left(E_{D}(w)+\lambda \sum_{i=1}^{n} w_{i} |\right)$
可写为凸优化问题:
$min_{w} E_{D}(w)$
$\sum_{i=1}^{n}\left|w_{i}\right| \leq C$
其中C与正则化参数λ成反比关系。也就是在一个限定的区域内找到:
$min E_{D}(w)$
考虑只有w1和w2的情况时，如果我们画出图来，L1正则项的区域就是一个以原点为中心点，旋转了45度角的正方形。我们的E_{D}(w)最小值在一个圆内，这个圆在正方形的右上角，且与正方形相交。在交点处，切向量始终指向w2轴，所以L1正则化容易使参数w2为0，即特征稀疏化。

L2正则化的最优化问题等价于:
$\min_{w} L(w)=\min_{w}\left(E_{D}(w)+\lambda \sum_{i=1}^{n} w_{i}^{2}\right)$
可写为凸优化问题:
$min_{w} E_{D}(w)$
$\sum_{i=1}^{n} w_{i}^{2} \leq C$
其中C与正则化参数λ成反比关系。也就是在一个限定的区域内找到:
$min E_{D}(w)$
考虑只有w1和w2的情况时，如果我们画出图来，L2正则项的区域就是一个以原点为圆心的圆。我们的E_{D}(w)最小值在一个圆内，这个圆在L2圆的右上角，且与其相交。在交点处，切向量相切与正则化圆，我们进行梯度下降时总是沿着正则化圆移动直接其点离E_{D}(w)最近，此时参数w1和w2都能取到比较小的值，但参数不为0。

L1与L2正则化的区别:梯度角度

L1正则化的损失函数:
$L(\mathrm{w})=E_{D}(w)+\frac{\lambda}{n} \sum_{i=1}^{n}\left|w_{i}\right|$
$\frac{\partial L(\mathrm{w})}{\partial w}=\frac{\partial E_{D}(w)}{\partial w}+\frac{\lambda \operatorname{sgn}(w)}{n}$
$w^{\prime}=w-\eta \frac{\partial L(\mathrm{w})}{\partial w}$
$w^{\prime}=w-\frac{\eta \lambda \operatorname{sgn}(w)}{n}-\frac{\eta \partial E_{D}(w)}{\partial w}$
其中η为学习率。Sgn 函数有如下返回值：大于零时返回1，等于零时返回0，小于零时返回-1。
可以看出，当w大于0时，更新的参数w变小；当w小于0时，更新的参数w变大；所以，L1正则化容易使参数变为0，即特征稀疏化。

L2正则化的损失函数:
$L(w)=E_{D}(w)+\frac{\lambda}{2 n} \sum_{i=1}^{n} w_{i}^{2}$
$\frac{\partial L(w)}{\partial w}=\frac{\partial E_{D}(w)}{\partial w}+\frac{\lambda w}{n}$
$\mathrm{w}^{\prime}=w-\eta \frac{\partial L(w)}{\partial w}$
$w^{\prime}=w-\frac{\eta \lambda w}{n}-\frac{\eta \partial E_{D}(w)}{\partial w}$
$w^{\prime}=\left(1-\frac{\eta \lambda}{n}\right) w-\frac{\partial E_{D}(w)}{\partial w}$
注意这项:
$\left(1-\frac{\eta \lambda}{n}\right) w$
当w趋向于0时，参数减小的非常缓慢，因此L2正则化使参数减小到很小的范围，但不为0。

深度学习训练、调参Tips

防止过拟合方法:
如果在训练集上性能较好，而在测试集上性能不好，那么这种情况就叫做过拟合。
防止过拟合可以使用早停、正则化、dropout、批标准化、残差网络等方法。
早停:
我们可以在训练过程中每隔固定steps数运行测试检查验证集预测准确率来及早发现过拟合的发生，这又叫早停。
dropout使用注意事项:
在训练时使用dropout层可以有效地减少过拟合，但是会延长训练过程，因为dropout后每轮更新的参数数量变少了（但更新的参数的梯度变大了，更新的更快），需要更多轮训练迭代。在测试时，我们应当关闭dropout层，使所有神经元都参与运算。
梯度消失:
梯度消失现象是由于反向传播的梯度是链式法则求导，如果激活函数使用类似sigmoid的激活函数，求导函数的特性会使得最初的几层的梯度变得很小，权重参数更新很慢。这也是激活函数从sigmoid函数改动relu函数的原因。
训练后期反复震荡现象:
训练过程中为了避免出现固定学习率在训练后期过大而导致在局部最优解两边反复震荡的情况，我们可以使用具有自适应学习率的优化算法，比如Adagrad。
梯度爆炸:
梯度爆炸即不同层之间的梯度（值大于1.0）相乘，使得权重更新时呈指数级爆炸增长。在极端情况下，权重的值变得非常大，以至于溢出，导致NaN值。
我们可以使用梯度截断、正则化、批标准化解决梯度爆炸现象。

批标准化（Batch Normalization）

论文:Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift
论文地址:https://arxiv.org/pdf/1502.03167.pdf 。
深层神经网络在每一层做线性变换和激活后，得到的值随着网络深度加深或在训练过程中，其分布会逐渐发生偏移或者变动，之所以训练收敛慢，一般是整体分布逐渐往非线性函数（如sigmoid函数）的取值区间的上下限两端靠近，这会导致反向传播时最后几层神经网络的梯度越来越小，出现梯度消失的现象。
批标准化就是对每层神经元的原始激活值通过标准化规整成服从正态分布的值，把线性变换后得到的值的分布强行拉回到均值为0方差为1的标准正态分布，这样使得这些值落在非线性函数中对输入比较敏感的区域，这样输入值的小变化就会导致损失函数较大的变化，梯度就会变大，避免梯度消失的问题。而且梯度变大意味着学习收敛速度快，能大大加快训练速度。
我们要注意一点的是，对数据进行批标准化一般都将其分布拉回标准正态分布上，但有时训练集数据并不服从正态分布，这同样会导致网络的性能下降。为解决该问题，我们引入两个新的参数γi,βi来学习原有的分布。γi和βi是在训练时网络自己学习得到的，它们用来恢复要学习的数据集特征。
批标准化计算过程:
首先将原始激活值规整到均值为0，方差为1的正态分布范围内。其中，ai为某个神经元原始激活值,μ和σi分别为期望和标准差，要计算期望和标准差，我们必须确定一个数据范围。
$\tau=\frac{a_{i}-\mu}{\sigma_{i}}$
接下来根据我们采用的神经网络分两种情况:

如果是全连接神经网络，对于我们最常见的mini-batch形式的训练，假如某个mini-batch有n个样本，每个样本在某层的某个神经元k上都会产生一个原始激活值，mini-batch中n个样本在通过这个神经元k时产生n个激活值，那么我们就用这n个激活值来计算对这个神经元k的激活值的期望和方差；
如果是CNN神经网络，对于我们最常见的mini-batch形式的训练，假如某个mini-batch有n个样本，对于某层中的单个卷积核，n个样本通过这个卷积核时产生了N个特征图，假设每个特征图长X宽=RXL，那么对于这个卷积核上的所有特征值，它们的期望和标准差就由这RXLXN个值产生。
然后我们要在模型训练过程中随其他权重参数一起，学习两个调节因子γi和βi，对上面规整后的值进行微调。因为经过第一步操作后，批标准化有可能降低神经网络的非线性表达能力，所以会以此方式来补偿批标准化操作后的神经网络的表达能力。
之后，我们要学习γi和βi两个调节因子，用来恢复要学习的数据集特征。γi和βi的学习是自动的，同网络中其他权重参数一样，是通过反向传播在训练过程中自动学习的。下式中，ai_norm为经过标准化操作后的值。
$a_{i}^{norm}=\gamma_{i} \cdot \tau+\beta_{i}$

特征标准化

特征标准化（Feature Scaling），就是让不同的特征值具有相同的缩放程度。
z-score标准化:
$y_{i}=\frac{x_{i}-\overline{x}}{s}$
$\overline{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i}, \quad s=\sqrt{\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}}$
min-max标准化:
$X_{n o m}=\frac{X-X_{\min }}{X_{\max }-X_{\min }}$

为什么交叉熵损失可以提高具有 sigmoid 和 softmax 输出的模型的性能，而使用均方误差损失则会存在很多问题

因为sigmoid函数求导后是
$f^{\prime}(x)=f(x)(1-f(x))$
如果损失函数是平方误差函数，那么求导后的式子易导致更新梯度变得很小。
而使用交叉熵函数作损失函数后，与softmax函数反向传播求导时的式子就很简单，而且不会造成梯度消失。

softmax函数在框架中计算时的优化

softmax函数公式:
$S_{i}=\frac{e^{i}}{\sum_{j} e^{j}}$
在机器学习中，使用softmax函数时输入数据往往是神经网络最后一层的输出值，通过softmax函数可以转化成所有神经元输出的值的和为1，因此可以看成概率来理解，这样我们就可以用来进行多分类。
实际计算时为了防止上溢，将e的x次方的分子分母上的x都减去一个xmax。防止下溢可在分母中加上一个小的常数即可。

激活函数的作用

如果没有激活函数，那么无论多少层网络，最终得到的函数都可以表示成一个线性组合。只有加入激活函数后，才能得到复杂的多层非线性模型，拟合能力更加强大。
神经网络具有至少一个非线性隐藏层，那么只要给予网络足够数量的隐藏单元，它就可以以任意的精度来近似任何从一个有限维空间到另一个有限维空间的函数。如果不使用非线性激活函数，那么每一层输出都是上层输入的线性组合。

relu函数的作用

首先如果不用非线性的激励函数（其实相当于激励函数是f(x) = x），则在这种情况下神经网络的每一层输出都是上层输入的线性函数，我们可以很容易地将其化简成只有一层y=wx+b的形式，那么这种情况下神经网络的隐藏层有没有效果都一样。
relu=max（0，x），当输出>0时，反向传播链式求导时这个函数导数为1，不容易发生梯度消失；当输出<0时，反向传播求导时这个函数导数为0，即此时参数中反向传播时只要含有该项的参数，其梯度都为0，该轮反向传播时参数不更新。
另外，有relu函数时神经网络训练完成后为0的神经元变多，这增大了神经网络的稀疏性。神经网络的稀疏性越大，提取出来的特征就约具有代表性，泛化能力越强。即得到同样的效果，真正起作用的神经元越少，网络的泛化性能越好。
另外，每一次relu函数相当于是一个二段的线性分段函数，多次relu后就变成了一个很多段的线性分段函数（每次分段点不一定相同），这样就可以近似地拟合一个非线性的函数。
缺点:
输出不是0均值；
有些神经元可能永远无法激活（参数一直为0）。

反向传播的过程

梯度下降法在每轮迭代时计算损失函数对所有权重参数的梯度（偏导数），然后用梯度更新权重参数，然后下一轮迭代时重新计算损失函数值。比较损失函数增大还是缩小了，将权重参数朝着损失函数值缩小的方向更新。

CNN神经网络原理概述

卷积神经网络（Convolutional Neural Networks）由许多个卷积层-池化层-dropout层这样的三层小结构串联而成（注意池化和dropout层都不一定是必须的），在网络的末尾往往还要接上1-2层全连接层神经网络，最后接输出层。
卷积层中最重要的概念就是卷积计算，一个卷积层中有多个卷积核（比如32、64、128）,同一个卷积层中的卷积核尺寸都相同，卷积核依照卷积层定义中的步长（行上和列上都有步长），从一个输入的图片样本数据矩阵的左上角开始依次扫过，每次都从图片样本数据矩阵中提取一个和卷积核大小相同的矩阵，称之为感受域。卷积核与这个矩阵做矩阵同样位置上元素相乘的乘积再求和的计算，最后再与卷积层中的bias变量相加，就得到了feature map中的一个位置上的特征值。一个卷积核将一个图片样本数据完整地扫完后，就得到一个完整的feature map。一个卷积层中有多少个卷积核，本层卷积结束后就能得到多少层feature map。
池化层的重要作用是浓缩feature map，减少feature map的数据量，同时又保留feature map中最有表现力的特征值，这样还可以减轻过拟合。以最常见的最大池化为例，filter窗口往往设为2x2，步长一般和窗口边长一样也为2，那么最大池化就是在2x2的窗口中选取一个最大值保留下来。窗口按照步长将整个feature map扫完，最后得到一个长宽均缩小为原来一半的新feature map。
dropout层按照我们设定的比率随机地保留feature map中这个比例数的特征值，而将其他特征值置为0。同时被保留的特征值都要除以这个比率，相当于把这部分特征值都放大了。dropout层可以有效地减轻过拟合，但因为反向传播时特征值为0的神经元权重都不更新，因此也延长了训练时间。
全连接层用来进一步把特征图压缩（压缩前会把特征图拉平为1维向量），多个全连接层最终将特征向量中的元素数量压缩到刚好等于我们需要预测的类别数。最后使用softmax函数将特征向量归一化就可以得到预测结果。
CNN卷积得到的特征图具有空间不变性，特征图上不同位置的特征值与输入样本特征分布一致。CNN网络中卷积层的权值是共享的，卷积层中的所有卷积核中的权重对一个图片样本的矩阵上的所有元素来说是共享的。

1x1卷积的作用

输入为6x6x128的特征图时，1x1卷积的形式是1x1x32时，输出为6x6x32。即1x1的卷积核通道数如果少于输出的特征图通道数，就可以减少特征图的通道数，也就是降维。1×1卷积不会改变特征图的height和width，1x1的卷积实际上是将不同channel上同一位置上的特征值进行线性组合变化，实现了跨通道的交互和信息整合。

CNN神经网络feature map尺寸计算

在每个卷积层中，有多少个卷积核，就有多少层特征图（或者说输出通道数）。对于输入的图片数据，如果是灰度图片，那么输入数据通道数为1；如果是彩色图片，那么输入通道数为3。
卷积后得到feature map边长计算公式：
$h_{out} =\left(\left(h_{in}+p^{*} 2-k\right) / s\right)+1$
h（in）为输入图片的长或宽，p为边缘要填充的行或列数，k为卷积核尺寸，s为步长，这里假设的是图片、卷积核、步长在长和宽方向均相等的情况。如果长和宽不等，仍然按上式计算，只要记得是用同样的对应位置上的数据来计算即可。如果算出来不是整数，则取上值整数。
卷积层之后进行pooling后feature maps边长计算公式：
$pool1_{h}=((conv1_{h}-k_{p})/s_{p})+1$
其中conv1（h）为卷积层输出的特征图尺寸，kp为池化层窗口边长，sp为池化层步长。
举例：
假设输入图片尺寸为32X32，使用6个5X5的卷积核，步长为1，pading=0。那么这一层卷积后的feature map尺寸为：
$(32 - 5) / 1 + 1 = 28$
即卷积层尺寸为28X28。
卷积层后假如pooling层的filter=2X2，步长stride=1，pooling方法为最大池化。那么pooling层后的feature map的边长为：
$(28 - 2) / 2 + 1 = 14$
即pooling后尺寸为14X14。

RNN神经网络原理概述

RNN的核心内容就是使用了循环连接，使用循环链接之后，可以使得神经网络拥有动态记忆能力。所谓循环连接，指的就是上一时刻的隐藏单元的输出s（t）也作为下一时刻的隐藏单元的输入，参与下一个时刻对s（t+1）的计算。
RNN能够处理不定长的输入数据，但是在某个时刻的输入还是定长的。RNN的权值同样是共享的，即RNN神经元中的权重对于不同时刻的U、W、V都是共享的。
某一个时刻的RNN神经元包含输入层、隐藏层、输出层。它们各自有一个权重矩阵，分别为U、W、V。在本时刻输入样本数据为x（t），与x（t）相乘的权重为U，上一时刻的隐藏层为s（t-1），与s（t-1）相乘的权重为W，输出为o（t），o（t）由本层记忆与权重矩阵V相乘得到。
如果对RNN网络的架构仍不是很清楚，请在这个网站上查看：http://www.asimovinstitute.org/neural-network-zoo/ 。
RNN神经网络的计算过程:
对某一个时刻的单个RNN神经元来说，t时刻的输入向量x（t）与输入层的权重矩阵U相乘，上一时刻的隐藏层输出（即我们所说的记忆）s（t-1）与本时刻的隐藏层权重矩阵W相乘，两者相加再经过激活函数（如sigmoid函数）得到的输出值就是本时刻隐藏层的输出值s（t）。s（t）再与本时刻输出层权重矩阵V相乘，得到的结果再经过激活函数（通常是softmax函数）得到的输出值就是本时刻的输出值o（t）。
每一个时刻t都会保存两个值：隐藏层的输出值（即记忆）s（t）和输出层输出值o（t）。其中s（t）会参与下一个时刻的计算。
需要注意的是，每一步的输出并不是必须的。假如我们把图片的每一行像素作为每个时刻的输入，最后我们要预测图片输入哪个类，那么我们只关心最后一个时刻的输出。
用公式来表示计算过程如下：
$s_{t}=f_{1}\left(U x_{t}+W_{S_{t-1}}\right)$
$o_{t}=f_{2}\left(V_{S_{t}}\right)$
RNN的训练过程：
对RNN的训练，也使用反向传播（backpropagation）算法，但反向传播链式求导计算时基于的是时刻（RNN中的不同时刻就类似CNN中的不同层），被称为BPTT算法。
但要注意一点的是，由于RNN的参数被所有时刻共享，因此当前时刻的输出不仅要依靠当前时刻所计算出来的梯度，还依赖于之前所有时刻上计算得到的梯度。即下面的计算公式：
$\frac{\partial E}{\partial W}=\sum^{t} \frac{\partial E_{t}}{\partial W}=\sum_{k=0}^{t} \frac{\partial E_{t}}{\partial n e t_{t}} \frac{\partial n e t_{t}}{\partial s_{t}}\left(\prod_{j=k+1}^{t} \frac{\partial s_{t}}{\partial s_{k}}\right) \frac{\partial s_{k}}{\partial W}$
如时刻t=4时，还需要向后传递三步，已经后面的三步都需要加上各种梯度。
关于BPTT算法，可看这篇文章：On the difficulty of training recurrent neural networks，文章地址: http://proceedings.mlr.press/v28/pascanu13.pdf 。
基于BPTT来训练RNN，由于其训练存在递归的问题，如果RNN的递归深度过长（一般超过十个时刻就难以为继），将会带来所谓的梯度消失或梯度爆炸问题。
注意:
RNN中的梯度消失/梯度爆炸和普通CNN中梯度消失/梯度爆炸的含义不一样。CNN中不同层有不同的参数，各是各的梯度；而 RNN 中同样的权重在各个时间步共享，最终的梯度为各个时间步的梯度之和。因此，RNN中总的梯度是不会消失的。即便梯度越传越弱，那也只是远距离时刻的梯度消失，由于近距离时刻的梯度不会消失，所有梯度之和便不会消失。
RNN梯度消失的真正含义是，梯度被近距离时刻的梯度主导，导致模型难以学到远距离时刻的关系。

LSTM神经网络原理概述

LSTM（Long Short Memory Network）即长短时记忆网络。它是为了克服RNN无法很好地处理长期记忆而提出的。由于RNN的隐藏层输出（即所谓的长期记忆）s（t）中每一个时刻都要经过激活函数sigmoid处理，而sigmoid函数求导后形式为sigmoid（1-sigmoid），这会导致对于靠前的时刻梯度快速减小，也就是梯度消失现象。为了避免梯度消失，人们对RNN网络进行了改进，实现了一种较为复杂的累加形式的反向传播，这就是LSTM网络。
对于某一个时刻的LSTM网络单个神经元来说，它包含三个结构：遗忘门、输入门和输出门。遗忘门负责决定保留多少上一时刻的单元记忆到当前时刻的单元记忆；输入门负责决定保留多少当前时刻的输入到当前时刻的单元记忆；输出门负责决定当前时刻的单元记忆有多少输出。
LSTM网络计算过程:
对于某一个时刻的LSTM网络单个神经元：
每个时刻的LSTM单个神经元有三个输入，即上一时刻的长时单元记忆C（t-1）、上一时刻单元的输出h（t−1）和当前时刻的输入x（t）。输出有两个值，C（t）代表了长时记忆，h（t）则代表了短时记忆。
遗忘门是上一时刻输出h（t−1）和本单元输入x（t）做矩阵乘法，再左乘遗忘门权重矩阵W（f），最后加上遗忘门的偏置b（f），将得到的值输入sigmoid函数后得到一个[0,1]内的激活值，来控制上一单元状态被遗忘的程度。
其中中括号表示两个向量相连合并。设输入层维度为dx，隐藏层维度为dh，上面的状态维度为dc，则W（f）的维度为dc（dh+dx）。
$f_{t}=\sigma(W_{f}\cdot [h_{t-1}, x_{t}]+b_{f})$
输入门的计算分为两部分：i（t）的计算与遗忘门的计算方法一致，只是权重全部换成了输入门i中的权重；头顶带波浪的C（t）的计算与遗忘门的计算也基本一致，权重全部换成了输入门C中的权重，但激活函数变为tanh函数，产生一个[-1,1]之间的值。
$i_{t}=\sigma(W_{i}\cdot [h_{t-1}, x_{t}]+b_{i})$
$\tilde C_{t}=\tanh (W_{C}\cdot [h_{t-1}, x_{t}]+b_{C})$
下面就是更新长期记忆C（t）的计算，当前时刻的单元长期记忆C（t）由遗忘门输入和上一时刻状态的积加上输入门两部分的积组成。
$C_{t}=f_{t}\cdot C_{t-1}+i_{t}\cdot \tilde C_{t}$
输出门的计算方式和遗忘门仍相同，只是权重全部换成了输出门O中的权重，计算出的o（t）用来控制当前时刻的单元记忆有多少输出。最后本时刻的短期记忆h（t）即为o（t）与tanh（C（t））的乘积。
$o_{t}=\sigma(W_{o}\cdot [h_{t-1}, x_{t}]+b_{o})$
$h_{t}=o_{t} \cdot \tanh (C_{t})$
注意:
LSTM中梯度的传播有很多条路径，长期记忆Ct-1->Ct的更新这条路径上只有逐元素相乘和相加的操作，梯度流最稳定，梯度不会消失。
但是在其他路径（如Ct-1->ht-1->it->Ct）上，LSTM 的梯度流和普通RNN没有太大区别，依然会产生梯度爆炸或者梯度消失现象。由于总的远距离梯度等于各条路径的远距离梯度之和，即便其他远距离路径梯度消失了，只要保证有一条远距离路径（Ct的更新这条路径）梯度不消失，总的远距离梯度就不会消失（正常梯度 + 消失梯度 = 正常梯度）。因此LSTM通过改善一条路径上的梯度问题拯救了总体远距离梯度。
同样，因为总的远距离梯度等于各条路径的远距离梯度之和，Ct-1->Ct上梯度流比较稳定，但其他路径上梯度有可能爆炸，因此总的远距离梯度仍可能梯度爆炸。不过，由于LSTM的其他路径和普通 RNN相比经过的激活函数次数要多得多，且这些激活函数导数都小于1，因此LSTM发生梯度爆炸的可能型要小得多。

GRU神经网络原理概述

GRU神经网络（Gated Recurrent Unit，门控循环单元神经网络）是LSTM神经网络的一个变体。GRU神经网络只有两个门，分别是更新门和重置门。GRU神经网络实际上是将LSTM神经网络中的遗忘门和输入门合成了一个单一的更新门。
重置门用于控制忽略前一时刻的记忆的程度，重置门的值越小说明忽略得越多。更新门用于控制前一时刻的记忆被带入到当前状态中的程度，更新门的值越大说明前一时刻的记忆带入越多。
具体计算过程如下:
rt是重置门，zt是更新门，ht-1是上一时刻传来的长时记忆，xt是本时刻输入的信息。rt和zt首先产生两个0到1之间的阈值。
$r_{t}=\sigma\left(W_{r} \cdot\left[h_{t-1}, x_{t}\right]\right)$
$z_{t}=\sigma\left(W_{z} \cdot\left[h_{t-1}, x_{t}\right]\right)$
然后计算头顶带波浪号的ht（候选隐含记忆），计算时rt这个重置门阈值控制了ht-1带入到带波浪ht（候选隐含记忆）中的信息量，重置门值越小则上一时刻的长时记忆ht-1的信息被丢弃的越多。然后用带波浪ht和ht-1更新本时刻的长时记忆ht。zt就是更新门，更新门可以控制过去的长时记忆ht-1在当前时刻的重要性。如果更新门一直近似1，过去的隐含状态将一直通过时间保存并传递至当前时刻。
$\tilde h_{t}=tanh((W_{\tilde{h}}) \cdot[r_{t} \cdot h_{t-1}, x_{t}])$
$h_{t}=(1-z_{t}) \cdot h_{t-1}+z_{t} \cdot (\tilde h_{t})$
其中[]表示两个向量相连接，点号表示矩阵元素相乘。

你可能感兴趣的:(深度学习原理推导)

《探秘人工智能与鸿蒙系统集成开发的硬件基石》人工智能深度学习
在科技飞速发展的当下，人工智能与鸿蒙系统的集成开发开辟了创新的前沿领域。这一融合不仅代表着技术的演进，更预示着智能设备生态的全新变革。而在这场技术盛宴的背后，坚实的硬件配置是确保开发顺利进行的关键，它就像一座大厦的基石，决定了上层建筑的高度和稳定性。处理器：运算核心的澎湃动力处理器作为硬件系统的核心，在人工智能与鸿蒙系统集成开发中扮演着至关重要的角色。对于模型训练任务，尤其是深度学习模型，其复杂的
VSCode配置C/C++环境 Redamancy_Xun 基本知识储备 vscode c语言 c++
VSCode配置C/C++环境推荐参考：vscode配置C/C++环境（超详细保姆级教学）_vscodec+±CSDN博客C/C++编译原理C和C++编译运行的过程通常包括以下几个主要步骤：预处理（Preprocessing）：编译器首先会处理源代码中的预处理指令（如#include、#define等）。包括导入头文件、宏替换、条件编译等操作。生成一个经过预处理的源代码文件（通常以.i或.ii为扩
AI基于深度学习的代码搜索案例（一）人工智能MOS 人工智能深度学习机器学习
1.背景近年来，人工智能逐渐进入各个领域并展现出了强大的能力。在计算机视觉领域，以ImageNet为例，计算机的图像分类水平已经超过了人类。在自然语言处理(NLP)领域，BERT、XLNet以及MASS也一遍遍的刷新着任务榜单。当人工智能进入游戏领域，也取得了惊人的成绩，在Atari系列游戏中，计算机很容易超过了大部分人类，在围棋比赛中，AlphaGo和AlphaZero也已经超越了人类顶尖棋手。
ClickHouse优化技巧实战指南：从原理到案例解析 AAEllisonPang Clickhouse clickhouse
目录ClickHouse优化核心思想表结构设计优化查询性能优化技巧数据写入优化方案系统配置调优实战高可用与集群优化真实案例解析总结与建议1.ClickHouse优化核心思想ClickHouse作为OLAP领域的明星引擎，其优化需遵循列式存储特性，把握以下原则：批量操作优于单行处理预计算替代实时计算数据有序存储提升检索效率利用硬件资源最大化吞吐量2.表结构设计优化2.1分区键选择选择低基数且高频过滤
大模型相关知识学习随记 m0_65156252 语言模型人工智能自然语言处理
2024/3/151，概念解释：通义千问，是阿里云推出的一个超大规模的语言模型，功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持。能够跟人类进行多轮的交互，也融入了多模态的知识理解，且有文案创作能力，能够续写小说，编写邮件等。2，多模态大模型：多模态大模型是一种基于深度学习的机器学习技术，其核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现
通信行业语言大模型技术和应用研究人工智能-猫猫学习 AIGC 语言模型人工智能
摘要ChatGPT的出现迅速引爆了AI的又一波热潮。在通信行业中，网络规划、建设、维护、优化、运营是非常耗时、复杂且需要大量人力成本的工作。语言大模型在通信运营商中有着非常广阔的应用前景。阐述了语言大模型开发的基本技术方案及原理并对其在通信行业的应用进行了研究与展望。前言ChatGPT的出现迅速引爆了AI的又一波热潮。作为一种人工智能技术驱动的语言大模型，ChatGPT使用了Transformer
DeepSeek在供热行业中的应用杨航 AI 人工智能深度学习 python 机器学习算法
目录引言1.1DeepSeek技术概述1.2供暖行业业务挑战1.3DeepSeek在供暖行业的应用前景DeepSeek技术基础2.1深度学习与机器学习2.2自然语言处理（NLP）2.3图像识别与处理2.4数据挖掘与分析供暖行业应用场景3.1设备监控与维护3.1.1设备状态监控3.1.2故障预测与诊断3.1.3维护计划优化3.2能源管理与优化3.2.1能耗数据分析3.2.2热负荷预测3.2.3节能优
分布式存储—— HBase数据模型详解 Future_yzx 分布式 hbase 数据库
目录1.3HBase数据模型1.3.1两类数据模型1.3.2数据模型的重要概念1.3.3数据模型的操作1.3.4数据模型的特殊属性1.3.5CAP原理与最终一致性1.3.6小结本文章参考、总结于学校教材课本《HBase开发与应用》1.3HBase数据模型在开始学习HBase之前非常有必要先学习HBase的特性，因此本节将介绍HBase的逻辑模型、物理模型和访问HBase的方法等。和传统的关系型数据
23章11节：自助抽样及其在R语言中的实现与验证 DAT｜R科学与人工智能用R探索医药数据科学 r语言开发语言 r-4.2.1 microsoft 信息可视化
在统计学中，数据分析的核心任务之一是如何在样本数据的基础上推断总体的性质。传统方法往往依赖于已知的概率分布假设和解析推导，但在现实问题中，我们往往无法准确得知总体分布，或者数据样本量较小，难以满足经典统计推断方法的要求。自助抽样作为一种非参数的计算方法，为我们提供了基于样本数据“自我重复”构建抽样分布的途径。1977年，斯坦福大学的B.Efron在著名论文《BootstrapMethods:Ano
uniapp，自绘仪表盘组件（基础篇）智驾 uniapp项目实战 uni-app 仪表
文章目录一、为什么需要自绘仪表盘？二、准备知识三、实现基础仪表盘1.组件模板结构2.核心绘制逻辑3.样式优化四、使用示例五、核心实现原理六、扩展方向七、常见问题一、为什么需要自绘仪表盘？在物联网、数据监控等场景中，仪表盘是常见的数据可视化组件。uniapp的组件市场虽然有许多现成方案，但自绘组件具有以下优势：完全掌控视觉效果无依赖零冗余高性能Canvas渲染轻松适配多端二、准备知识基础Canvas
Transformer大模型实战对比ALBERT与BERT AI天才研究院 AI大模型企业级应用开发实战 Python实战 DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
文章标题在当今人工智能领域的迅速发展中，Transformer大模型无疑成为了自然语言处理（NLP）领域的璀璨明星。为了深入理解这一技术，我们特别撰写了《Transformer大模型实战对比ALBERT与BERT》这篇文章，旨在为广大读者提供一场关于Transformer模型及其实战应用的技术盛宴。关键词：Transformer，BERT，ALBERT，自然语言处理，深度学习，模型对比，实战应用摘
Windows 10/11下安装labelImg标注工具 czimt开摆 python
abelImg是深度学习最常用的标注工具之一，下面讲解安装方法！1、下载windows免安装版本进入下载地址：Releases·HumanSignal/labelImg(github.com)，选择windows_v1.8.1.zip，下载并解压，直接双击exe文件即可打开或者可以访问https://sjmwsw.com/xTI4Z2、安装labelImg打开命令行cmd终端下使用：pipinst
电机控制常见面试问题（五）小雀丝嵌入式硬件单片机
文章目录一.面对电机控制中的非线性特征应采取什么方法二.电机控制常用传感器有哪些，有什么优缺点三.什么是电机的磁场与电流交互的基本原理四.请解释电机的工作原理是什么?如何转换电能为机械能?五.什么是电枢反应？六.在电机控制中如何优化控制器的性能以提高效率一.面对电机控制中的非线性特征应采取什么方法在电机控制中，非线性特征指系统或模型中存在无法用线性数学关系（如比例、叠加）描述的特性，偏离了理想模型
C++实现哈夫曼编码的技术详解金外飞176 算法 c++开发语言
C++实现哈夫曼编码的技术详解哈夫曼编码（HuffmanCoding）是一种基于字符出现频率的无损数据压缩算法，由DavidA.Huffman在1952年提出。它通过构建最优二叉树（哈夫曼树）为字符分配变长编码，使得高频字符使用较短的编码，低频字符使用较长的编码，从而实现数据的高效压缩。本文将详细介绍哈夫曼编码的原理，并通过C++代码实现其核心功能。1.哈夫曼编码的基本原理哈夫曼编码的核心思想是贪
Diffusion Transformer与Differential Transformer：技术创新与应用前景 AI大模型learner 深度学习人工智能机器学习
引言Transformer架构已成为自然语言处理（NLP）和计算机视觉（CV）领域的主流技术。随着技术的不断发展，DiffusionTransformer和DifferentialTransformer等新型架构逐步涌现，为生成模型和注意力机制带来了突破性的进展。本文旨在从科学视角探讨这两种模型的核心原理、技术特点及应用前景。DiffusionTransformer概念与原理DiffusionTr
[每日一学]数据分析与可视化：anaconda与pythoncharm使用上的区别之处及优越点，使用哪款比较好用拼命绽放 python 开发语言
anaconda、.jupyter·jupyter的基本使用，开发环境与pythoncharm有什么区别？在数据分析和可视化使用中有什么区别？哪个在数据分析和可视化上更占优势？如果用pythoncharm如何去实现数据分析与可视化有影响吗？一、Anaconda是一个开源的Python发行版本，集成了多个常用的数据科学、机器学习、深度学习等相关工具，例如JupyterNotebook、Spyder、
Git新建分支报错：detected dubious ownership in repository at 热爱生活啊！ git
刚入职：错误频繁出报这个错误原理是因为：你拉取的项目的管理员名称与当前不一致，好好想一想是不是你最近改过你的用户管理员用户名。解决方法：转载一下这位博主的博客，按照步骤操作完成后需要重新打卡一下你的编译软件。detecteddubiousownershipinrepositoryatXXX解决办法c
五分钟快速掌握windows深度学习环境配置：Anaconda、PyCharm、Pytorch、jupyter notebook 芝帕先生深度学习 windows pycharm python conda pip 人工智能
目录前言下载并安装Anaconda下载途径安装步骤下载并安装PyCharm安装pytorch安装jupyternotebook前言新手五分钟掌握windows深度学习环境配置：Anaconda、PyCharm、Pytorch配置的时候遇到了很多问题，总结了一下，可以按这个流程无脑配置。通过本流程下载的版本Anaconda2023.03PyCharmCommunity2023.1.3Pytorch2
深度学习核心技术深度解析月落星还在深度学习深度学习人工智能
一、深度学习的本质与核心思想定义：通过多层非线性变换，自动学习数据层次化表征的机器学习方法核心突破：表征学习：自动发现数据的内在规律，无需人工设计特征端到端学习：直接从原始输入到最终输出，消除中间环节的信息损失分布式表示：通过神经元激活模式的组合，指数级提升表达能力数学本质：f(x)=WLσ(WL−1σ(...σ(W1x+b1)...)+bL−1)+bLf(x)=W_{L}σ(W_{L-1}σ(.
Redis 内存淘汰策略深度解析月落星还在 redis redis 数据库缓存
Redis作为高性能的内存数据库，其内存资源的高效管理直接关系到系统的稳定性和性能。当Redis的内存使用达到配置的最大值（maxmemory）时，新的写入操作将触发内存淘汰机制（EvictionPolicy），以释放空间存储新数据。本文将深入探讨Redis的内存淘汰策略、实现原理、适用场景及最佳实践。一、内存淘汰策略概述Redis的内存淘汰策略决定了在内存不足时，如何选择需要删除的键来释放空间。
Linux zgrep 命令使用详解 linux
简介zgrep用于在压缩(.gz)文件中搜索模式，就像grep在常规文本文件中所做的那样。它的工作原理是将文件临时解压到内存中，搜索模式并显示匹配的行。基础语法zgrep[OPTIONS]PATTERNFILE.gz或gzip-dcFILE.gz|grep[OPTIONS]PATTERN示例用法在.gz文件中搜索字符串zgrep"error"logfile.gz或gzip-dclogfile.gz
Vision Transformer (ViT)：将Transformer带入计算机视觉的革命性尝试（代码实现）阿正的梦工坊 Deep Learning DL Papers transformer 计算机视觉深度学习
VisionTransformer(ViT)：将Transformer带入计算机视觉的革命性尝试作为一名深度学习研究者，如果你对自然语言处理（NLP）领域的Transformer架构了如指掌，那么你一定不会对它在序列建模中的强大能力感到陌生。然而，2021年由GoogleResearch团队在ICLR上发表的论文《ANIMAGEISWORTH16x16WORDS:TRANSFORMERSFORIM
深度学习/机器学习入门基础数学知识整理（一）：线性代数基础，矩阵，范数等 chljerry_mouse 线性代数深度学习机器学习
前面大概有2年时间，利用业余时间断断续续写了一个机器学习方法系列，和深度学习方法系列，还有一个三十分钟理解系列（一些趣味知识）；新的一年开始了，今年给自己定的学习目标——以补齐基础理论为重点，研究一些基础课题；同时逐步继续写上述三个系列的文章。最近越来越多的研究工作聚焦研究多层神经网络的原理，本质，我相信深度学习并不是无法掌控的“炼金术”，而是真真实实有理论保证的理论体系；本篇打算摘录整理一些最最
稀土抑烟剂在家电中的应用：为家庭安全护航金士镧新材料有限公司安全全文检索科技生活
稀土抑烟剂的工作原理稀土抑烟剂通过与其他材料的化学反应，能够形成一种高效的保护层，减缓火焰蔓延速度，并抑制有毒气体的释放。此外，稀土元素在高温下能够吸热、抗氧化，从而减少烟雾产生的可能性，为家庭提供更加安全的使用环境。稀土抑烟剂的优势1.提升家电安全性稀土抑烟剂在高温环境下能够有效减少燃烧过程中的烟雾和有毒气体的产生。通过添加稀土抑烟剂可以有效减少过热、短路或电气故障等情况下产生的有害烟雾，极大降
python学智能算法（七）|KNN邻近算法西猫雷婶人工智能 python学习笔记算法
【1】引言前述学习进程中，已经了解了一些非常经典的智能算法，相关文章包括且不限于：python学智能算法（三）|模拟退火算法：深层分析_模拟退火动画演示-CSDN博客python学智能算法（四）|遗传算法：原理认识和极大值分析_遗传算法和模拟退火时间复杂度-CSDN博客python学智能算法（五）|差分进化算法：原理认识和极小值分析-CSDN博客python学智能算法（六）|神经网络算法：BP神经
C++设计模式-中介者模式：从基本介绍，内部原理、应用场景、使用方法，常见问题和解决方案进行深度解析牵牛老人 C++专栏 c++设计模式中介者模式
一、基本介绍：对象世界的"通信指挥官"1.1模式定义与价值中介者模式（MediatorPattern）是一种行为型设计模式，其核心思想是通过中介对象封装一组对象的交互规则，使各对象不再显式相互引用。如同现实中的机场塔台调度飞机起降，该模式将原本复杂的网状通信结构转化为星型结构，很大程度上降低了对象的耦合度。1.2模式演进历程从早期GUI事件处理到现代微服务架构，中介者模式始终扮演着关键角色。在Qt
图像去雾常见数据集梦姐的编程日志图像处理深度学习人工智能
近年来，随着深度学习技术的快速发展，图像去雾任务成为计算机视觉领域的重要研究方向之一。高质量的数据集是算法研究的基础，本文将介绍一些常用的图像去雾数据集，包括其特点、应用场景以及下载地址。1.RESIDE数据集RESIDE（REalisticSingleImageDEhazing）数据集是目前最常用的图像去雾数据集之一。该数据集提供了多种规模的子数据集，主要分为以下几部分：IndoorTraini
点云从入门到精通技术详解100篇-基于激光雷达点云的三维目标检测格图素书目标检测人工智能计算机视觉
目录前言图像目标检测算法研究现状点云目标检测算法研究现状基于投影图的方法基于体素的方法基于点云的多模态融合方法2地面点云滤波及神经网络2.1目标检测数据集及采集设备2.1.1KITTI数据集2.1.2车载激光雷达2.2地面点云滤波算法2.2.1RANSAC算法2.2.2CSF算法本文篇幅较长，分为上下两篇，下篇详见基于激光雷达点云的三维目标检测（续）前言近几年来，在计算机视觉领域，利用深度学习卷积
深度学习中的异构特征介绍赫连达深度学习人工智能
深度学习，特别是现在的大模型，数据永远是最紧要的基础和前提。数据中有大量的各种各样的特征，这些特征类型不同、来源不同，因此称之为”异构特征“。这些特征没有一个明确的结构来描述它们之间的关系，这些特征的多样性和复杂性给数据处理和分析带来了挑战。这些特征包括：高基数ids：每个实体的唯一标识。交叉特征：两个或多个特征之间的组合关系。计数特征：某个特征出现的次数。比例特征：某个特征在整体中的占比。异构特
(4-8)基于DeepSeekMoE架构的DeepSeek-V3：测试模型码农三叔训练 RAG 多模态)架构 transformer deekseek 人工智能大模型
4.8测试模型DeepSeek-V3是一款基于PyTorch的深度学习模型，主要用于文本生成任务。在加载模型时，首先需要从指定路径加载模型的配置文件和预训练权重。加载完成后，模型被设置为评估模式，并移动到GPU上以加速推理过程。在生成文本时，用户可以输入提示文本，模型会根据这些提示生成相应的文本输出。生成过程支持交互式输入和批量处理两种模式，用户可以根据需要选择适合的方式进行文本生成。此外，模型的
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1