Viokiri

BP神经网络

为什么要使用神经网络？

虽然对于分类问题，可以运用Logistic回归，但是对于一些过于复杂的非线性训练集合，既分类问题，Logistic回归的决策边界可能会过于复杂，而且可能会导致过拟合的问题，如下图所示：

对于这个有两个特征变量 $x_{1}$ 和 $x_{2}$ 的分类问题，可以用包含许多非线性项的Logistic函数，既假设函数来拟合数据集

$h_{\theta }(x)=g\left ( \theta _{0}+\theta _{1}x_{1}+\theta _{2}x_{2}+\theta _{3}x_{1}x_{2}+\theta _{4}x_{1}^{2}x_{2}+\theta _{5}x_{1}x_{2}^{2}+\theta _{6}x_{1}^{3}x_{2}+\cdots \right )$

当多项式足够多时，或许可以划分决策边界，把正负样本给区分开。

但是许多分类问题中可能特征远不止两项，假设有100个特征变量

$x=\begin{bmatrix} x_{1}\\ x_{2}\\ \vdots \\ x_{100} \end{bmatrix}$

这样光是二次项就有5151种可能，将

$(n+1)+n+(n-1)+\cdots +1=\frac{(n+1)(n+2)}{2}$

故二次项的数量呈 $O(n^{2})$ 的复杂度递增，而三次项的数目就会更多，呈 $O(n^{3})$ 的复杂度递增，故即使只是包含全部的二次项，Logistic回归也并不是一个很好的选择，最后得出的结果可能也会过拟合。

所以，当特征个数很大时，将这些高阶多项式项数包括到特征里，会使特征空间急剧膨胀，而对于许多实际的机器学习问题，特征变量的个数是很大的，如下例所示：

要辨别图像是否为一辆汽车，以其中的两个像素点作为输入特征可以简单地划分是正负样本，但一张图片可能包含许多像素点，假设图片都是 $50\times 50$ 像素，一张图片一共有2500个像素点。因此，特征向量的元素个数就是2500，如果我们想通过包含所有二次项特征的假设函数来学习得到的非线性假设，那总共就会包含约 $3\times 10^{7}$ 个特征，特征空间过大严重影响Logistic回归算法的效率。

所以，用包含二次项和三次项的简单Logistic回归来学习当特征个数很大时的非线性假设并不是一个很好的方法。

神经网络模型

下图是一个简单的只包含单个神经元的神经网络模型，黄色圆圈表示神经元细胞体，用于处理接收到的信息，既一个逻辑单元，通过树突或者输入通道输入特征变量 $x_{1}$ ， $x_{2}$ 和 $x_{3}$ ，最后通过轴突输出计算结果，既假设函数，在神经网络里也可以称为激活函数（activation function）。

$h_{\theta }(x)=\frac{1}{1+e^{-\theta ^{T}x}}$

其中特征向量和参数向量 $\theta$ 为

$x=\begin{bmatrix} x_{0}\\ x_{1}\\ x_{2}\\ x_{3} \end{bmatrix},\ \theta =\begin{bmatrix} \theta _{0}\\ \theta _{1}\\ \theta _{2}\\ \theta _{3} \end{bmatrix}$

在绘制神经网络模型时，一般只绘制输入特征，而不会加上 $x_{0}$ ，因为 $x_{0} = 1$ 。当在有必要的时候加上 $x_{0}$ 时，把 $x_{0}$ 称为偏置单元（bias unit）。

但神经网络其实是一组神经元连接在一起的集合，如下图所示

把用于输入特征变量的第一层称为输入层（input layer），最后一层用于输出假设函数的称为输出层（output layer），而中间用于处理数据的神经元都被称为隐藏层（hidden layer）。除了输出层之外的每一层都可以加入偏置单元，且都为1。

$a_{i}^{(j)}$ 表示第层第个激活项
$\Theta ^{(j)}$ 是权重矩阵，既参数矩阵，它控制着从第层到第层的映射，因为 $\Theta ^{(j)}$ 是矩阵所以要大写

每个激活项的表达式如下

$a_{1}^{(2)}=g\left ( \Theta _{10}^{(1)}x_{0}+\Theta _{11}^{(1)}x_{1}+\Theta _{12}^{(1)}x_{2}+\Theta _{13}^{(1)}x_{3} \right )$

$a_{2}^{(2)}=g\left ( \Theta _{20}^{(1)}x_{0}+\Theta _{21}^{(1)}x_{1}+\Theta _{22}^{(1)}x_{2}+\Theta _{23}^{(1)}x_{3} \right )$

$a_{3}^{(2)}=g\left ( \Theta _{30}^{(1)}x_{0}+\Theta _{31}^{(1)}x_{1}+\Theta _{32}^{(1)}x_{2}+\Theta _{33}^{(1)}x_{3} \right )$

输出单元的表达如下

$a_{1}^{(3)}=h_{\Theta }(x)=g\left ( \Theta _{10}^{(2)}a_{0}^{(2)}+\Theta _{21}^{(2)}a_{1}^{(2)}+\Theta _{22}^{(2)}a_{2}^{(2)}+\Theta _{23}^{(2)}a_{3}^{(2)} \right )$

因此 $\Theta ^{(1)}$ 是一个 $3\times 4$ 的矩阵， $\Theta ^{(1)}\in \mathbb{R}^{3\times 4}$ ，它控制着第1层输入层到第2层隐藏层的映射

$\Theta ^{(1)}=\begin{bmatrix} \Theta _{10}^{(1)} & \Theta _{11}^{(1)} & \Theta _{12}^{(1)} &\Theta _{13}^{(1)}\\ \Theta _{20}^{(1)}& \Theta _{21}^{(1)} & \Theta _{22}^{(1)} & \Theta _{23}^{(1)}\\ \Theta _{30}^{(1)}& \Theta _{31}^{(1)} & \Theta _{32}^{(1)} &\Theta _{33}^{(1)} \end{bmatrix}$

而 $\Theta ^{(2)}$ 是一个 $1\times 3$ 的矩阵， $\Theta ^{(2)}\in \mathbb{R}^{1\times 4}$ ，它控制着第2层隐藏层到第3层输出层的映射

$\Theta ^{(2)}=\begin{bmatrix} \Theta _{10}^{(2)} & \Theta _{11}^{(2)} & \Theta _{12}^{(2)} &\Theta _{13}^{(2)} \end{bmatrix}$

由此可知 $\Theta ^{(j)}\in \mathbb{R}^{s_{j + 1}\times (s_{j}+1)}$ ， $s_{j}+1$ 是第层激活项加上该层的偏置项的个数， $s_{j+1}$ 是第层激活项的个数。

1、前向传播算法

对神经网络模型进行向量化，将每个激活项进行化简

$z_{1}^{(2)}= \Theta _{10}^{(1)}x_{0}+\Theta _{11}^{(1)}x_{1}+\Theta _{12}^{(1)}x_{2}+\Theta _{13}^{(1)}x_{3}$

那么激活项 $a_{1}^{(2)}$ 为

$a_{1}^{(2)}=g\left ( z_{1}^{(2)} \right )$

同理可得 $z_{2}^{(2)}$ ， $z_{3}^{(2)}$ 和 $a_{2}^{(2)}$ ， $a_{3}^{(2)}$ ，那么

$z^{(2)}=\begin{bmatrix} z_{1}^{(2)}\\ z_{2}^{(2)}\\ z_{3}^{(2)} \end{bmatrix},\ a^{(2)}=\begin{bmatrix} a_{1}^{(2)}\\ a_{2}^{(2)}\\ a_{3}^{(2)} \end{bmatrix}$

而特征变量为

$x=\begin{bmatrix} x_{1}\\ x_{2}\\ x_{3}\\ \end{bmatrix}$

因此 $z^{(2)}$ 可以简化成权重矩阵 $\Theta ^{(1)}$ 和添加进偏置项 $x_{0}$ 的特征向量相乘

$z^{(2)}=\begin{bmatrix} \Theta _{10}^{(1)} & \Theta _{11}^{(1)} & \Theta _{12}^{(1)} &\Theta _{13}^{(1)} \\ \Theta _{20}^{(1)} & \Theta _{21}^{(1)} & \Theta _{22}^{(1)} &\Theta _{23}^{(1)} \\ \Theta _{30}^{(1)} & \Theta _{31}^{(1)} & \Theta _{32}^{(1)} &\Theta _{33}^{(1)} \\ \end{bmatrix}\begin{bmatrix} x_{0}\\ x_{1}\\ x_{2}\\ x_{3} \end{bmatrix}=\Theta ^{(1)}x$

故 $a^{(2)}$ 为

$a^{(2)}=g\left ( z^{(2)} \right )=g\left ( \Theta ^{(1)}x \right )$

把第1层输入层作为第1层激活层 $a^{(1)}$ ，既

$a^{(2)}=g\left ( z^{(2)} \right )=g\left ( \Theta ^{(1)}a^{(1)} \right )$

以此类推，将偏置项 $a_{0}^{(2)}=1$ 加入 $a^{(2)}$ ，可得输出层 $a^{(3)}$ 为

$h_{\Theta }(x)=a^{(3)}=g\left ( z^{(3)} \right )=g(\Theta ^{(2)}a^{(2)})$

这就是前向传播算法的向量表示，我自己把它理解为，最后输出层得到的就是神经网络的模型，既假设函数。

这是二元分类的例子，而在多元分类（multi-class classification）问题中，最后输出层输出的是一个向量，元分类问题就是维向量。如下图所示，要分辨出图像的类别，是轿车，行人，摩托车还是卡车，则是4元分类问题，输出的就是4维向量。

$y\in \mathbb{R}^{K}, \ h_{\Theta }(x)\in \mathbb{R}^{K}$

当该图像是行人时，则目标变量和假设函数 $h_{\Theta }(x)$ 分别为

$y=\begin{bmatrix} 1\\ 0\\ 0\\ 0 \end{bmatrix},\ h_{\Theta }(x)\approx \begin{bmatrix} 1\\ 0\\ 0\\ 0 \end{bmatrix}$

当该图像轿车是时，则目标变量和假设函数 $h_{\Theta }(x)$ 分别为

$y=\begin{bmatrix} 0\\ 1\\ 0\\ 0 \end{bmatrix},\ h_{\Theta }(x)\approx \begin{bmatrix} 0\\ 1\\ 0\\ 0 \end{bmatrix}$

以此类推。

2、激活函数的选择

如果要解决回归问题，毫无疑问选择线性函数；如果我们要解决二元分类问题，隐藏层选择ReLU函数，输出层选择sigmoid函数；如果要解决多元分类问题，隐藏层依然选择ReLU函数，但是输出层选择softmax函数。选择sigmoid函数也可行，但是需要同时修改代价函数。

如果都选择用线性的激活函数，从输入层开始

$a^{(1)} = x^{(1)}$

$a^{(2)} = g\left (\Theta ^{(1)}a^{(1)} \right )=\Theta ^{(1)}a^{(1)}$

$a^{(3)} = g\left (\Theta ^{(2)}a^{(2)} \right )=\Theta ^{(2)}a^{(2)}=\Theta ^{(2)}\Theta ^{(1)}a^{(1)}$

$\vdots$

$a^{(l)} = g\left (\Theta ^{(l-1)}a^{(l-1)} \right )=\Theta ^{(l-1)}a^{(l-1)}=\Theta ^{(l-1)}\Theta ^{(l-2)}a^{(l-2)}=\Theta ^{(l-1)}\Theta ^{(l-2)}\cdots \Theta ^{(1)}a^{(1)}$

因此最后输出层输出的值依旧是线性的，就等同于线性回归。

3、代价函数

假设有如图所示神经网络

训练集有个训练样本

$\left \{ \left ( x^{(1)},y^{(1)} \right ),\left( x^{(2)},y^{(2)} \right ),\cdots,\left ( x^{(m)},y^{(m)} \right ) \right \}$

表示这个神经网络的总层数
$s_{l}$ 表示第层神经元的数量，既激活项的数量。这个数量不包括偏置项

神经网络的代价函数是Logistic回归代价函数的一般形式，因为Logistic回归只有一个目标变量，所以也只会有一个逻辑回归输出单元 $h_{\theta }(x)$ ,而对于神经网络来说可能会有一个维的目标向量，所以输出的也是一个维向量 $h_{\Theta }(x)$

$y\in \mathbb{R}^{K}$ ， $h_{\Theta }(x)\in \mathbb{R}^{K}$

那么 $\left (h_{\Theta }(x) \right )_{k}$ 就表示输出层维向量中的第个输出单元，因此输出层的激活函数为sigmoid函数的神经网络的代价函数 $J(\Theta )$ 为

$J(\Theta )=-\frac{1}{m}\left [ \sum_{i = 1}^{m}\sum_{k = 1}^{K}\left (y^{(i)}_{k}\log \left ( h_{\Theta }(x^{(i)}) \right )_{k}+ \left ( 1-y_{k}^{(i)} \right )\log \left ( 1 - h_{\Theta }(x^{(i)})_{k} \right ) \right )\right ]+ \frac{\lambda }{2m}\sum_{l = 1}^{L}\sum_{i = 1}^{s_{l + 1}}\sum_{j = 1}^{s_{l}}\left (\Theta _{ij}^{(l)} \right )^{2}$

输出层的激活函数为softmax函数的神经网络的代价函数 $J(\Theta )$ 为

$J(\Theta )=-\frac{1}{m}\left [ \sum_{i = 1}^{m}\sum_{k = 1}^{K}y^{(i)}_{k}\log \left ( h_{\Theta }(x^{(i)}) \right )_{k} \right ]+ \frac{\lambda }{2m}\sum_{l = 1}^{L}\sum_{i = 1}^{s_{l + 1}}\sum_{j = 1}^{s_{l}}\left (\Theta _{ij}^{(l)} \right )^{2}$

其中 $\frac{\lambda }{2m}\sum_{l = 1}^{L}\sum_{i = 1}^{s_{l + 1}}\sum_{j = 1}^{s_{l}}\Theta _{ij}^{(l)}$ 为正则项，下标从 $\Theta ^{(l)}_{i1}$ 开始，不包括偏置项的参数（权重）。

4、反向传播算法

在得到神经网络模型的代价函数后，需要找到参数 $\Theta$ 使得代价函数最小，既求出代价函数的最小值 $\underset{\Theta }{min}J(\Theta )$ ，无论是利用梯度下降法还是别的高级算法，要求出 $\underset{\Theta }{min}J(\Theta )$ ，都需要计算每个参数的偏导数，既求出 $\frac{\partial J(\Theta )}{\partial \Theta _{ij}^{(l)}}$ 。

从输出层开始，从后往前开始求导。输出层为

而 $z^{(l+1)}$ 为

$z^{(l+1)} = \Theta ^{(l)}a^{(l)}=\begin{bmatrix} \Theta _{11}^{(l)} & \Theta _{12}^{(l)} & \cdots & \Theta _{1n^{(l)}}^{(l)} \\ \Theta _{21}^{(l)} & \Theta _{22}^{(l)} & \cdots & \Theta _{2n^{(l)}}^{(l)} \\ \vdots &\vdots &\ddots & \vdots \\ \Theta _{n1}^{(l)} & \Theta _{22}^{(l)} & \cdots & \Theta _{2n^{(l)}}^{(l)} \\ \end{bmatrix}\begin{bmatrix} a_{1}^{(l)}\\ a_{2}^{(l)}\\ \vdots \\ a_{n^{(l)}}^{(l)} \end{bmatrix}$

对 $\Theta ^{(l)}$ 的第一行 $\Theta _{1j}^{(l)}$ 开始求导，当选用sigmoid函数作为输出层的激活函数时，除了 $\left (h_{\Theta } \left ( x^{(i)} \right ) \right )_{1}$ ，其余输出项对 $\Theta _{1j}^{(l)}$ 求偏导都为0，因此

$\frac{\partial J(\Theta )}{\partial \Theta _{1j}^{(l)}}=\frac{\partial J\left ( \Theta \right )}{\partial z_{1} ^{(l+1)}}\cdot \frac{\partial z _{1}^{(l+1)}}{\partial \Theta _{1j}^{(l)}}=\frac{1}{m}\left [ \sum_{i = 1}^{m} \left (\left (h_{\Theta } \left ( x^{(i)} \right ) \right )_{1} - y_{1} ^{(i)} \right ) \cdot \left (a^{(l)} \right )^{T}\right]$

当选用softmax函数作为输出层的激活函数时，

$\frac{\partial J\left ( \Theta \right )}{\partial z_{1} ^{(l+1)}}=\frac{1}{m}\left [ \sum_{i=1}^{m}y_{1} ^{(i)}\left (\left (h_{\Theta }\left ( x^{(i)} \right ) \right )_{1}-1\right )+ y^{(i)}_{2}\left (h_{\Theta }\left ( x^{(i)} \right ) \right )_{2}+ \cdots+ y^{(i)} _{K}\left (h_{\Theta }\left ( x^{(i)} \right ) \right )_{K} \right ]$

除了第 $\left ( y^{(i)} \right )_{k}$ ，其余输出项全部为0，因此

$\frac{\partial J(\Theta )}{\partial \Theta _{1j}^{(l)}}=\left\{\begin{matrix} \frac{1}{m}\left [ \sum_{i=1}^{m} y^{(i)}_{k}\left (\left (h_{\Theta }\left ( x^{(i)} \right ) \right )_{k}-1\right )\cdot \left ( a^{(l)} \right )^{T}\right ] \ , \ if \ k=1 \\ \frac{1}{m}\left [ \sum_{i=1}^{m} y^{(i)} _{k}\left (h_{\Theta }\left ( x^{(i)} \right ) \right )_{k}\cdot \left ( a^{(l)} \right )^{T}\right ] \ , \ if \ k=else \end{matrix}\right.$

以此类推，以sigmoid函数作为输出层的激活函数时的 $\frac{\partial J(\Theta )}{\partial \Theta ^{(l)}}$ 为

$\frac{\partial J(\Theta )}{\partial \Theta ^{(l)}}=\frac{\partial J\left ( \Theta \right )}{\partial z^{(l+1)}}\cdot \frac{\partial z ^{(l+1)}}{\partial \Theta ^{(l)}}=\frac{1}{m}\left [ \sum_{i = 1}^{m} \left (h_{\Theta } \left ( x^{(i)} \right ) - y^{(i)} \right ) \cdot \left (a^{(l)} \right )^{T} \right]$

以softmax函数作为输出层的激活函数时的 $\frac{\partial J(\Theta )}{\partial \Theta ^{(l)}}$ 为

$\frac{\partial J(\Theta )}{\partial \Theta ^{(l)}}=\frac{1}{m}\sum _{i=1}^{m}\begin{bmatrix} \left ( h_{\Theta }\left ( x^{(i)} \right )-1 \right )_{1} & \left ( h_{\Theta }\left ( x^{(i)} \right ) \right )_{1} & \cdots & \left ( h_{\Theta }\left ( x^{(i)} \right ) \right )_{1}\\ \left ( h_{\Theta }\left ( x^{(i)} \right ) \right )_{2} & \left ( h_{\Theta }\left ( x^{(i)} \right )-1 \right )_{2} & \cdots & \left ( h_{\Theta }\left ( x^{(i)} \right ) \right )_{2} \\ \vdots & \vdots & \ddots &\vdots \\ \left ( h_{\Theta }\left ( x^{(i)} \right ) \right )_{n} & \left ( h_{\Theta }\left ( x^{(i)} \right ) \right )_{n} & \cdots & \left ( h_{\Theta }\left ( x^{(i)} -1\right ) \right )_{n} \end{bmatrix}\cdot y^{(i)}\cdot a^{(l)}$

接下来对 $\Theta ^{(l-1)}$ 进行求导

$\frac{\partial J(\Theta )}{\partial \Theta ^{(l-1)}}=\frac{\partial J\left ( \Theta \right )}{\partial z^{(l+1)}}\cdot \frac{\partial z ^{(l+1)}}{\partial a ^{(l)}}\cdot \frac{\partial a ^{(l)}}{\partial z^{(l)}}\cdot \frac{\partial z ^{(l)}}{\partial \Theta ^{(l-1)}}$

其中由之前对 $\Theta ^{(l)}$ 求导可知，

$\frac{\partial J\left ( \Theta \right )}{\partial z^{(l+1)}}=\frac{1}{m}\left [ \sum_{i = 1}^{m} \left (h_{\Theta } \left ( x^{(i)} \right ) - y^{(i)} \right ) \right]$

或者

$\frac{\partial J(\Theta )}{\partial z ^{(l+1)}}=\frac{1}{m}\sum _{i=1}^{m}\begin{bmatrix} \left ( h_{\Theta }\left ( x^{(i)} \right )-1 \right )_{1} & \left ( h_{\Theta }\left ( x^{(i)} \right ) \right )_{1} & \cdots & \left ( h_{\Theta }\left ( x^{(i)} \right ) \right )_{1}\\ \left ( h_{\Theta }\left ( x^{(i)} \right ) \right )_{2} & \left ( h_{\Theta }\left ( x^{(i)} \right )-1 \right )_{2} & \cdots & \left ( h_{\Theta }\left ( x^{(i)} \right ) \right )_{2} \\ \vdots & \vdots & \ddots &\vdots \\ \left ( h_{\Theta }\left ( x^{(i)} \right ) \right )_{n} & \left ( h_{\Theta }\left ( x^{(i)} \right ) \right )_{n} & \cdots & \left ( h_{\Theta }\left ( x^{(i)} -1\right ) \right )_{n} \end{bmatrix}\cdot y^{(i)}$

同样先对 $\Theta _{1j}^{(l-1)}$ 求导，而除了 $z_{1}^{(l+1)}$ ，其余激活项对 $\Theta _{1j}^{(l-1)}$ 的偏导数也都为0，因此

$\frac{\partial z _{1}^{(l+1)}}{\partial a ^{(l)}}\cdot \frac{\partial a ^{(l)}}{\partial z^{(l)}}\cdot \frac{\partial z ^{(l)}}{\partial \Theta ^{(l-1)}}=\left (\Theta _{1j}^{(l)} \right )^{T}\cdot g'\left ( z^{(l)} \right )\cdot \left (a^{(l-1)} \right )^{T}$

以此类推

$\frac{\partial z ^{(l+1)}}{\partial a ^{(l)}}\cdot \frac{\partial a ^{(l)}}{\partial z^{(l)}}\cdot \frac{\partial z ^{(l)}}{\partial \Theta ^{(l-1)}}=\left (\Theta ^{(l)} \right )^{T}\cdot g'\left ( z^{(l)} \right )\cdot \left (a^{(l-1)} \right )^{T}$

然后对 $\Theta ^{(l-2)}$ 进行求导

$\frac{\partial J(\Theta )}{\partial \Theta ^{(l-2)}}=\frac{\partial J\left ( \Theta \right )}{\partial z^{(l+1)}}\cdot \frac{\partial z ^{(l+1)}}{\partial a ^{(l)}}\cdot \frac{\partial a ^{(l)}}{\partial z^{(l)}}\cdot \frac{\partial z ^{(l)}}{\partial a ^{(l-1)}}\cdot \frac{\partial a^{(l-1)}}{\partial z^{(l-1)}}\cdot \frac{\partial z^{(l-1)}}{\partial \Theta ^{(l-2)}}$

其中

$\frac{\partial J\left ( \Theta \right )}{\partial z^{(l+1)}}\cdot \frac{\partial z ^{(l+1)}}{\partial a ^{(l)}}\cdot \frac{\partial a ^{(l)}}{\partial z^{(l)}}=\left (\Theta ^{(l)} \right )^{T}\cdot g'\left ( z^{(l)} \right )$

而 $\frac{\partial z ^{(l)}}{\partial a ^{(l-1)}}\cdot \frac{\partial a^{(l-1)}}{\partial z^{(l-1)}}\cdot \frac{\partial z^{(l-1)}}{\partial \Theta ^{(l-2)}}$ 的求导步骤与上一层一样，因此可以得出

$\frac{\partial z ^{(l)}}{\partial a ^{(l-1)}}\cdot \frac{\partial a^{(l-1)}}{\partial z^{(l-1)}}\cdot \frac{\partial z^{(l-1)}}{\partial \Theta ^{(l-2)}}=\left (\Theta ^{(l-1)} \right )^{T}\cdot g'\left ( z^{(l-1)} \right )\cdot \left (a^{(l-2)} \right )^{T}$

把输入层作为 $a^{(1)}$ ，就可以得出所有 $\frac{\partial J(\Theta )}{\partial \Theta ^{(l)}}$ 的值，把 $\frac{\partial J(\Theta )}{\partial z^{(l)}} \ , \ (l=1,2\cdots ,n)$ 称作误差项 $\delta ^{(l)}$ 。

先以一个训练样本 $(x^{(1)}, y^{(1)})$ 为例，利用前向传播算法得出输出层输出向量，既假设函数 $h_{\Theta }(x)$ 的向量

$a^{(1)}=x$

$z^{(2)}=\Theta ^{(1)}a^{(1)}$

$a^{(2)}=g(z^{(2)})$

$z^{(3)}=\Theta ^{(2)}a^{(2)}$

$a^{(3)}=g(z^{(3)})$

$z^{(4)}=\Theta ^{{(3)}}a^{(3)}$

$a^{(4)}=h_{\Theta }(x)=g(z^{(4)})$

接下来为了计算偏导项，将利用反向传播算法（Backpropagation），反向传播算法就是对每一个激活项计算 $\delta _{j}^{(l)}$ ， $\delta _{j}^{(l)}$ 代表第层第项的误差，从后往前计算。从输出层开始

$\delta ^{(4)}_{j}=a_{j}^{(4)}-y_{j}=(h_{\Theta }(x))_{j}-y_{j}$

因此转化为向量形式为

$\delta ^{(4)}=a^{(4)}-y=h_{\Theta }(x)-y$

而之前几层的误差项的计算方式和最后一层输出层有所区别

$\delta ^{(3)}=(\Theta ^{(3)})^{T}\delta ^{(4)}.* g'\left ( z^{(3)} \right )$

$\delta ^{(2)}=(\Theta ^{(2)})^{T}\delta ^{(3)}.* g'\left ( z^{(2)} \right )$

“”表示向量中的项两两相乘。又因为为

$g'(z)=\frac{e^{-z}}{\left (1+e^{-z} \right )^{2}}$

故 $g'\left ( z^{(l)} \right )$ 可以化简为

$g'\left ( z^{(l)} \right )=g\left ( z^{(l)} \right ).*\left (1-g\left ( z^{(l)} \right ) \right )=a^{(l)}.*\left (1-a^{(l)} \right )$

而第一层 $a^{(1)}$ 为输入层也就是特征向量，不存在误差，也就没有 $\delta ^{(1)}$ 。

所以误差项的一般形式为

$\delta ^{(L)}=a^{(L)}-y=h_{\Theta }(x)-y$

$\delta ^{(l)}=(\Theta ^{(l)})^{T}\delta ^{(l+1)}.* g'\left ( z^{(l)} \right )=(\Theta ^{(l)})^{T}\delta ^{(l+1)}.*a^{(l)}.*\left (1-a^{(l)} \right )$

每个省去正则项的偏导项 $\frac{\partial J(\Theta )}{\partial \Theta _{ij}^{(l)}}$ 为

$\frac{\partial J(\Theta )}{\partial \Theta _{ij}^{(l)}}=a_{j}^{(l)}\delta _{i}^{(l+1)}$

向量化后为

$\frac{\partial J(\Theta )}{\partial \Theta ^{(l)}}=\delta ^{(l + 1)}\left ( a^{(l)} \right )^{T}$

对个训练样本重复以上操作，把偏导矩阵记作 $\Delta ^{(l)}$ ，并对所有训练样本所对应参数的偏导矩阵求和

$\Delta ^{(l)}:= \Delta ^{(l)}+\delta ^{(l + 1)}\left ( a^{(l)} \right )^{T}$

最后分两种情况选择是否对正则项求偏导

$D_{ij} ^{(l)}:= \left\{\begin{matrix} \frac{1}{m}\Delta_{ij} ^{(l)}+\lambda \Theta_{ij} ^{(l)} \ , \ j \neq 0 \\ \frac{1}{m}\Delta_{ij} ^{(l)} \ \ \ \ \ \ \ \ \ \ \ , \ j \neq 0 \end{matrix}\right.$

由此可知所有参数的偏导数为

$\frac{\partial J(\Theta )}{\partial \Theta _{ij}^{(l)}}=D_{ij}^{(l)}$

5、梯度检测

由偏导数的定义可知

$\frac{\partial J(\theta _{0},\theta _{1},\cdots ,\theta _{n})}{\partial \theta _{i}}=\underset{\varepsilon \rightarrow 0}{\lim}\frac{J(\theta _{0},\theta _{1},\cdots ,\theta _{i} + \varepsilon ,\cdots ,\theta _{n})-J(\theta _{0},\theta _{1},\cdots ,\theta _{n})}{\varepsilon }$

为了检测后向传播算法是否正常运行，对 $\delta _{ij}^{(l)}$ 以及偏导数 $\Delta _{ij}^{(l)}$ 的计算是否有误差，如果

$\frac{\partial J(\Theta)}{\partial \Theta _{ij}^{(l)}}\approx \frac{J(\Theta _{ij}^{(l)} + \varepsilon)-J(\Theta _{ij}^{(l)} - \varepsilon)}{2\varepsilon }$

则说明后向传播算法正常运行，对偏导数的计算误差不大， $\varepsilon$ 一般选择一个很小的值在 $10^{-4}$ 左右。

但是注意，在用神经网络训练数据时，要把梯度检测给关掉，以为梯度检测的计算量非常大，计算偏导数会非常慢，而反向传播算法的速度就很快，所以为了提高模型的效率，在训练神经网络时，要把梯度检测给关掉。

6、随机初始化

在利用梯度下降法或其他高级算法计算 $\underset{\Theta }{min}J(\Theta )$ 是，会先初始化参数的值，一般全部设置为0，但是在神经网络中，因为

$a^{(l)} = g(z^{(l)}) \ , \ z^{(l+1)}=\Theta ^{(l)}a^{(l)}$

如果把初始的参数全部设置为0，既 $\Theta _{ij}^{(l)} = 0$ 那么

$a_{1}^{(l)}=a_{2}^{(l)}=\cdots =a_{n}^{(l)}$

因为每层每个激活项的值都相等，每层每个误差项 $\delta _{j}^{(l)}$ 也相等。那么就会导致输入的特征冗余，且下降每次每个参数 $\Theta _{ij}^{(l)}$ 都下降相同的程度。

为了解决这个问题，在神经网络中对参数进行初始化时，要使用随机初始化的思想，对参数 $\Theta _{ij}^{(l)}$ 在随机范围 $\left [ -\varepsilon ,\varepsilon \right ]$ 初始化，既

$\Theta _{ij}^{(l)}\in \ random \ \left [ -\varepsilon ,\varepsilon \right ]$

这里的 $\varepsilon$ 和梯度检测 $\varepsilon$ 是不同的 $\varepsilon$ ，注意区分。

你可能感兴趣的:(BP神经网络)

webpack图片等资源的处理 dmengmeng
需要的loaderfile-loader（让我们可以引入这些资源文件）url-loader（其实是file-loader的二次封装）img-loader（处理图片所需要的）在没有使用任何处理图片的loader之前，比如说css中用到了背景图片，那么最后打包会报错的，因为他没办法处理图片。其实你只想能够使用图片的话。只加一个file-loader就可以，打开网页能准确看到图片。{test:/\.(p
CX8836：小体积大功率升降压方案推荐（附Demo设计指南）诚芯微科技社交电子
CX8836是一颗同步四开关单向升降压控制器，在4.5V-40V宽输入电压范围内稳定工作，持续负载电流10A，能够在输入高于或低于输出电压时稳定调节输出电压，可适用于USBPD快充、车载充电器、HUB、汽车启停系统、工业PC电源等多种升降压应用场合，为大功率TYPE-CPD车载充电器提供最优解决方案。提供CX8836Demo测试、CX8836样品申请及CX8836方案开发技术支持。CX8836同升
Some jenkins settings SnC_
Jenkins连接到特定gitlabproject的特定branch我采用的方法是在pipeline的script中使用git命令来指定branch。如下：stage('Clonerepository'){steps{gitbranch:'develop',credentialsId:'gitlab-credential-id',url:'http://gitlab.com/repo.git'}}
python结束子进程_如何清除python中的子进程 weixin_39995943 python结束子进程
我们使用python进程来管理长时间运行的python子进程。有时需要终止子进程。kill命令不会完全终止进程，只会使其失效。运行以下脚本将演示此行为。importsubprocessp=subprocess.Popen(['sleep','400'],stdout=subprocess.PIPE,shell=False)或者p=subprocess.Popen('sleep400',stdout
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
详解“c:/work/src/components/a/b.vue“‘ has no default export报错原因 hw_happy 开发语言前端 vue.js javascript
前情提要在一个vue文件中需要引入定义的b.vue文件，但是提示b文件没有默认导出，对于vue2文件来说有exportdefault，在中，所有定义的变量、函数和组件都会自动被视为默认导出的组件内容。因此，不需要显式地使用exportdefault来导出组件。但是在我引用这个文件的时候还是提示了这个错误，原来是我的项目使用了ts和vite\webpack，因为TypeScript和Vue的默认导出
bat+ffmpeg批处理图片，图片批量转码张雨zy 音视频 ffmpeg
直接在cmd中输入//批量转码文件for%ain("*.png")doffmpeg-i"%a"-fs1024k"%~na.webp"//删除所有pngdel*.png@echooff表示执行了这条命令后关闭所有命令(包括本身这条命令)的回显。而echooff命令则表示关闭其他所有命令(不包括本身这条命令)的回显，@的作用就是关闭紧跟其后的一条命令的回显脚本完整代码写入脚本中后，需要多加一个%，例如
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
神经网络-损失函数红米煮粥神经网络人工智能深度学习
文章目录一、回归问题的损失函数1.均方误差（MeanSquaredError,MSE）2.平均绝对误差（MeanAbsoluteError,MAE）二、分类问题的损失函数1.0-1损失函数（Zero-OneLossFunction）2.交叉熵损失（Cross-EntropyLoss）3.合页损失（HingeLoss）三、总结在神经网络中，损失函数（LossFunction）扮演着至关重要的角色，它
BP神经网络的传递函数大胜归来19 MATLAB
BP网络一般都是用三层的，四层及以上的都比较少用；传输函数的选择，这个怎么说，假设你想预测的结果是几个固定值，如1,0等，满足某个条件输出1，不满足则0的话，首先想到的是hardlim函数，阈值型的，当然也可以考虑其他的；然后，假如网络是用来表达某种线性关系时，用purelin---线性传输函数；若是非线性关系的话，用别的非线性传递函数，多层网络时，每层不一定要用相同的传递函数，可以是三种配合，可
神经网络传递函数sigmoid,神经网络传递函数作用快乐的小荣荣神经网络机器学习深度学习人工智能
神经网络传递函数选取不同会有特别大差别嘛？只是最后一层，但前面层是非线性，那么可能存在区别不大的情况。线性函数f(a*input)=af(input),一般来说，input为向量，最简化情况下，可以假设input的各个维度，a1=a2=a3。。。意味着你线性层只是简单的对输入做了scale~而神经网络能起作用的原因，在于通过足够复杂的非线性函数，来模拟任何的分布。所以，神经网络必须要用非线性函数。
TA-Lib Python 库 Windows 64位安装包黄桥壮Quinn
TA-LibPython库Windows64位安装包TA.rar项目地址:https://gitcode.com/open-source-toolkit/3ff39简介本仓库提供了一个适用于Windows64位系统的TA-LibPython库安装包。TA-Lib是一个广泛用于金融技术分析的库，支持多种技术指标的计算。资源文件文件名TA-Lib-0.4.29-cp312-win-amd64.whl描
PAT Advanced 1015. Reversible Primes (C语言实现) OliverLew
我的PAT系列文章更新重心已移至Github，欢迎来看PAT题解的小伙伴请到GithubPages浏览最新内容。此处文章目前已更新至与GithubPages同步。欢迎star我的repo。题目Areversibleprimeinanynumbersystemisaprimewhose"reverse"inthatnumbersystemisalsoaprime.Forexampleinthedec
Python和R均方根误差平均绝对误差算法模型亚图跨际 Python 交叉知识 R 回归模型误差指标归一化均方根误差生态状态指标神经网络成本误差气体排放气候模型多项式拟合
要点回归模型误差评估指标归一化均方根误差生态状态指标神经网络成本误差计算气体排放气候算法模型Python误差指标均方根误差和平均绝对误差均方根偏差或均方根误差是两个密切相关且经常使用的度量值之一，用于衡量真实值或预测值与观测值或估计值之间的差异。估计器θ^\hat{\theta}θ^相对于估计参数θ\thetaθ的RMSD定义为均方误差的平方根：RMSD⁡(θ^)=MSE⁡(θ^)=E((θ^−θ
go语言安装快速入门吉祥鸟hu
[TOC]go语言是什么Go是一个开源的编程语言，它能让构造简单、可靠且高效的软件变得容易。Go是从2007年末由RobertGriesemer,RobPike,KenThompson主持开发，后来还加入了IanLanceTaylor,RussCox等人，并最终于2009年11月开源，在2012年早些时候发布了Go1稳定版本。现在Go的开发已经是完全开放的，并且拥有一个活跃的社区如何安装环境笔者这
python+adb 0o一人情 adb命令 Python项目 python 开发语言
#!/usr/bin/pythonenv#-*-coding:utf-8-*-importosimportsysimportsubprocessfromtimeimportsleepimportlogginglogging.basicConfig(level=logging.DEBUG)classScreenCapture():defget_screen_size(self):"""获取手机分辨率
ceph KVM使用rbd做存储 SkTj
博客：https://blog.csdn.net/bobpen/article/details/40112939博客：http://www.aboutyun.com/thread-13195-1-1.html导言很多cepher都会使用RBD块存储功能，下面介绍qemu-kvm访问RBD的方法。操作目前Ubuntu14.04.x和CentOS7.1(如使用CentOS7建议升级到7.1，CentO
【NLP5-RNN模型、LSTM模型和GRU模型】一蓑烟雨紫洛 nlp rnn lstm gru nlp
RNN模型、LSTM模型和GRU模型1、什么是RNN模型RNN（RecurrentNeuralNetwork)中文称为循环神经网络，它一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出RNN的循环机制使模型隐层上一时间步产生的结果，能够作为当下时间步输入的一部分（当下时间步的输入除了正常的输入外还包括上一步的隐层输出）对当下时间步的输出产生影响2、R
react里的index.js是怎么跟index.html结合起来的? SherrinfordL
image.pngcreate-react-app把webpack、babel等配置都封装到了依赖项目react-script中，所以你无法直观的看到这些配置。你可以在项目下运行npmruneject，被隐藏的配置文件就会暴露到项目根路径下。把请求转发到index.html原因是，你执行npmrunstart时，启动的webpack-dev-server，会加载react-script项目conf
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
Camera2 CameraService 启动 yaoming168 Camera Framewrok android
文章目录frameworks/av/media/mediaserver/main_mediaserver.cppframeworks/av/media/mediaserver/Android.bpframeworks/native/include/binder/BinderService.hframeworks/av/services/camera/libcameraservice/CameraS
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
训练日记 | 2020-01-02 周四崔宏雷
-01跑走-总用时，1:00（大约）距离：6.01km时间：00:45:15平均配速：07'31"最慢配速：10'36"最快配速：05'13"平均心率：125bpm最小心率：91bpm最大心率：160bpm平均步频：153膝盖，老样子。连续跑步达到52周，一年了。。。AirPods总掉，原来戴着跑20km也没掉，最近右侧经常掉。第3km的时候手机还冻关机了。。。悦跑圈数据
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
深入理解Webpack核心模块Tapable钩子[异步版] weixin_34413802 webpack javascript ViewUI
接上一篇文章深入理解Webpack核心模块WTApable钩子(同步版)tapable中三个注册方法1tap(同步)2tapAsync(cb)3tapPromise(注册的是Promise)tapable中对三个触发方法1call2callAsync3promise这一章节我们将分别实现异步的Async版本和Promise版本异步钩子AsyncParallelHookAsyncParallelHo
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S