炼丹师v1

神经网络

感知机

1943年，心理学家W.S.McCulloch和数理逻辑学家W.Pitts基于神经元的生理特征，建立了单个神经元的数学模型（MP模型）

实际上没啥依据

1957年，Frank Rosenblatt从纯数学的度重新考察这一模型，指出能够从一些输入输出对中通过学习算法获得权重 $\boldsymbol{w}$ 和 $b$ 。（这被认为是第一个机器学习算法，SVM是90年代的算法）

问题：给定一些输入输出对 $(\boldsymbol{x},y)$ ，其中 $y=\pm 1$ ，求一个函数，使： $f\left( \boldsymbol{x} \right) =y$

感知机算法：设定 $f\left( \boldsymbol{x} \right) =sign\left( \boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x}+b \right)$ ，从一堆输入输出中自动学习，获得权重 $\boldsymbol{w}$ 和 $b$ 。

感知器算法（Perceptron Algorithm）:

对于样本数据 $(\boldsymbol{x},y)$

随机选取 $\boldsymbol{w}$ 和 $b$
取一个训练样本 $\left( \boldsymbol{x_i},y_i \right)$ ，
- 若 $\boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x_i}+b>0$ 且 $y_i=-1$ ，则： $\boldsymbol{w}=\boldsymbol{w}-\boldsymbol{x_i},b=b-1$
- 若 $\boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x_i}+b<0$ 且 $y_i=+1$ ，则： $\boldsymbol{w}=\boldsymbol{w}+\boldsymbol{x_i},b=b+1$
再取另外一个 $\left( \boldsymbol{x_i},y_i \right)$ ，回到（2）
终止条件：直到所有输入和输出对都不满足（2）中的任意一条，退出循环

关于调整 $\boldsymbol{w}$ 和 $b$ 的一点点直观的解释：（和梯度下降法推导出来的不同，这里是原论文的方法，比较naive）

若 $\boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x}+b>0$ 且 $y = - 1$ ，则： $\boldsymbol{w}=\boldsymbol{w}-\boldsymbol{x},b=b-1$ ，于是有：
$\boldsymbol{w}_{\text{新}}^{T}\boldsymbol{x}+b_{\text{新}}=\left( \boldsymbol{w}-\boldsymbol{x} \right) ^T\boldsymbol{x}+b-1=\left( \boldsymbol{w}^T\boldsymbol{x}+b \right) -\left( \lVert \boldsymbol{x} \rVert ^2+1 \right)$
$\left( \lVert \boldsymbol{x} \rVert ^2+1 \right)$ 是大于1的正数，它会把 $\boldsymbol{w}^T\boldsymbol{x}+b$ 往负的方向调整。
$\boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x}+b<0$ 时同理

Frank Rosenblatt从数学上证明了，若数据集线性可分，那么以上的算法一定会收敛，下图是感知机在二维特征空间画出的一条直线

注意，感知机画出的直线与SVM有很大不同。感知机画出的直线只是做到了划分正负样本，而没有像SVM那样有最大的margin（毕竟SVM是90年代的东西，感知机早了将近半个世纪）

感知机算法收敛定理

刚刚我们提到了，Frank Rosenblatt从数学上证明了，若数据集线性可分，那么感知机算法一定会收敛。下面我们加以证明：

首先，为下面证明过程书写方便，

定义增广矩阵 $\boldsymbol{X}$ ：

若 $y = + 1$ ，则 $\boldsymbol{X}=\left[ \begin{array}{c} \boldsymbol{x}\\ 1\\ \end{array} \right]$
若 $y = - 1$ ，则 $\boldsymbol{X}=\left[ \begin{array}{c} -\boldsymbol{x}\\ -1\\ \end{array} \right]$

定义增广矩阵 $\boldsymbol{W}=\left[ \begin{array}{c} \boldsymbol{w}\\ b\\ \end{array} \right]$

然后我们重写感知机算法：

对于样本数据 $\boldsymbol{X}$

随机选取 $\boldsymbol{W}$
取一个训练样本 $\boldsymbol{X_i}$
- 若 $\boldsymbol{W}^{\boldsymbol{T}}\boldsymbol{X_i}<0$ 且 $y_i=-1$ ，则： $\boldsymbol{W}=\boldsymbol{W}+\boldsymbol{X_i}$
再取另外一个 $\boldsymbol{X_i}$ ，回到（2）
终止条件：直到所有输入和输出对都不满足（2）中的任意一条，退出循环

感知机算法收敛定理：

若样本数据集 $\left\{ \boldsymbol{X}_i \right\} _{i\sim N}$ 线性可分，即 $\exists \boldsymbol{W}_{opt}$ ，使
$\boldsymbol{W}_{opt}^{T}\boldsymbol{X}_i>0 \left( i=1\sim N \right)$
则利用上述感知机算法，经过有限步后，得到一个 $\boldsymbol{W}$ ，使
$\boldsymbol{W}^{T}\boldsymbol{X}_i>0 \left( i=1\sim N \right)$

proof：不失一般性，设 $\lVert \boldsymbol{W}_{opt} \rVert =1$ ，假设第k步时的 $\boldsymbol{W}$ 是 $\boldsymbol{W}(k)$ ，且有一个 $\boldsymbol{X_i}$ 使得 $\boldsymbol{W}(k)^{\boldsymbol{T}}\boldsymbol{X_i}<0$ 。根据感知机算法可以推导出：
$\boldsymbol{W}\left( k+1 \right) =\boldsymbol{W}\left( k \right) +\boldsymbol{X}_{\boldsymbol{i}}\rightarrow \lVert \boldsymbol{W}\left( k+1 \right) -a\boldsymbol{W}_{opt} \rVert ^2=\lVert \boldsymbol{W}\left( k \right) -a\boldsymbol{W}_{opt}+\boldsymbol{X}_{\boldsymbol{i}} \rVert ^2 \\ \lVert \boldsymbol{W}\left( k \right) -a\boldsymbol{W}_{opt}+\boldsymbol{X}_{\boldsymbol{i}} \rVert ^2=\lVert \boldsymbol{W}\left( k \right) -a\boldsymbol{W}_{opt} \rVert ^2+\lVert \boldsymbol{X}_{\boldsymbol{i}} \rVert ^2+2\boldsymbol{W}\left( k \right) ^T\boldsymbol{X}_{\boldsymbol{i}}-2a\boldsymbol{W}_{opt}^{T}\boldsymbol{X}_i$

注意到 $\boldsymbol{W}\left( k \right)^T\boldsymbol{X}_{\boldsymbol{i}}<0$ 以及 $\boldsymbol{W}_{opt}^{T}\boldsymbol{X}_i>0$ ，则一定可以取很大的 $a$ ，使得

$\lVert \boldsymbol{W}\left( k+1 \right) -a\boldsymbol{W}_{opt} \rVert ^2<\lVert \boldsymbol{W}\left( k \right) -a\boldsymbol{W}_{opt} \rVert ^2$

定义： $\beta =\underset{i=1\sim N}{\max}\left\{ \lVert \boldsymbol{X}_i \rVert \right\} , \gamma =\underset{i=1\sim N}{\min}\left\{ \boldsymbol{W}_{opt}^{T}\boldsymbol{X}_i \right\}$ ，取 $a=\frac{\beta ^2+1}{2\gamma}$ ，则
$\lVert \boldsymbol{W}\left( k+1 \right) -a\boldsymbol{W}_{opt} \rVert ^2<\lVert \boldsymbol{W}\left( k \right) -a\boldsymbol{W}_{opt} \rVert ^2-1$
取 $D=\lVert \boldsymbol{W}\left( 0 \right) -a\boldsymbol{W}_{opt} \rVert$ ，则至多经过 $D^2$ 步， $\boldsymbol{W}$ 将会收敛至 $a\boldsymbol{W}_{opt}$

（注意是在条件 $\boldsymbol{W}(k)^{\boldsymbol{T}}\boldsymbol{X_i}<0$ 下，才有 $\boldsymbol{W}$ 将会收敛至 $a\boldsymbol{W}_{opt}$ ，而通常情况下这个条件很快就会消失。这个证明的意思是，若数据线性可分，并且很难线性划分， $\boldsymbol{W}_{opt}$ 几乎是唯一划分的选择，那么感知机最终也会收敛到 $\boldsymbol{W}_{opt}$ 这个决策平面）

多层神经网络

1969年，Minsky指出了感知机没办法处理非线性可分的数据，在日常生活中很多分类问题是非线性的，人工智能进入了第一次冬天。

在80年代，人们创造了多层神经网络（Multiple Layer Neural Networks），从而可以实现对非线性可分数据集的分类，人工智能从新复苏。

下面是一个两层神经网络的例子：

若$\varphi\left( \cdot \right) $为线性函数，则多层神经网络和单层没有区别

定理：当 $\varphi\left( x \right)=u(x)$ （即阶跃函数）时，三层网络可以模拟任意决策面

反向传播算法

反向传播算法（Back Propogation Algorithm）：从后往前计算各个参数的偏导数，然后使用梯度下降法对模型进行训练，最终达到收敛。

以上图为例：

首先定义误差函数： $E=\frac{1}{2}\left( y-Y \right) ^2$ ，其中 $y$ 为前向传播计算出的模型输出， $Y$ 为数据标签，优化目标为最小化 $E$

模型中代求的偏导数为：
$\begin{aligned} &\frac{\partial E}{\partial w_1}=\frac{dE}{dy}\frac{\partial y}{\partial w_1}=\left( y-Y \right) z_1 \\ &\frac{\partial E}{\partial w_2}=\frac{dE}{dy}\frac{\partial y}{\partial w_2}=\left( y-Y \right) z_2 \\ &\frac{\partial E}{\partial w_{11}}=\frac{dE}{dy}\frac{\partial y}{\partial z_1}\frac{dz_1}{da_1}\frac{\partial a_1}{\partial \omega _{11}}=\left( y-Y \right) \omega _1\varphi '\left( a_1 \right) x_1 \\ &\frac{\partial E}{\partial w_{12}}=\frac{dE}{dy}\frac{\partial y}{\partial z_1}\frac{dz_1}{da_1}\frac{\partial a_1}{\partial \omega _{12}}=\left( y-Y \right) \omega _1\varphi '\left( a_1 \right) x_2 \\ &\frac{\partial E}{\partial w_{21}}=\frac{dE}{dy}\frac{\partial y}{\partial z_2}\frac{dz_2}{da_2}\frac{\partial a_2}{\partial \omega _{21}}=\left( y-Y \right) \omega _2\varphi '\left( a_2 \right) x_1 \\ &\frac{\partial E}{\partial w_{22}}=\frac{dE}{dy}\frac{\partial y}{\partial z_2}\frac{dz_2}{da_2}\frac{\partial a_2}{\partial \omega _{22}}=\left( y-Y \right) \omega _2\varphi '\left( a_2 \right) x_2 \\ &\frac{\partial E}{\partial b_1}=\frac{dE}{dy}\frac{\partial y}{\partial z_1}\frac{dz_1}{da_1}\frac{\partial a_1}{\partial b_1}=\left( y-Y \right) \omega _1\varphi '\left( a_1 \right) \\ &\frac{\partial E}{\partial b_2}=\frac{dE}{dy}\frac{\partial y}{\partial z_2}\frac{dz_2}{da_2}\frac{\partial a_2}{\partial b_2}=\left( y-Y \right) \omega _2\varphi '\left( a_2 \right) \\ &\frac{\partial E}{\partial b_3}=\frac{dE}{dy}\frac{\partial y}{\partial b_3}=\left( y-Y \right) \end{aligned}$

上面是一个小例子以帮助理解。

下面我们对反向传播算法进行向量化，并得到他的一般形式：

首先给出神经网络的向量化数学表达式

这是神经网络的第一层，记输入为 $\boldsymbol{x}$ ， $\boldsymbol{x}$ 是一个 $N\times 1$ 向量， $N$ 是输入特征的维数。

$\boldsymbol{w}^{\left( 1 \right)}$ 为第一层的参数矩阵：
$\boldsymbol{w}^{\left( 1 \right)}=\left[ \begin{matrix} w_{11}^{\left( 1 \right)}& w_{12}^{\left( 1 \right)}& \cdots& w_{1N}^{\left( 1 \right)}\\ w_{21}^{\left( 1 \right)}& w_{22}^{\left( 1 \right)}& \cdots& w_{2N}^{\left( 1 \right)}\\ \vdots& & & \vdots\\ w_{M1}^{\left( 1 \right)}& w_{M2}^{\left( 1 \right)}& \cdots& w_{MN}^{\left( 1 \right)}\\ \end{matrix} \right]$
则有：
$\boldsymbol{x}\Rightarrow \boldsymbol{w}^{\left( 1 \right)}\boldsymbol{x}+\boldsymbol{b}^{\left( 1 \right)}=\boldsymbol{z}^{\left( 1 \right)}\xrightarrow{\varphi}\boldsymbol{a}^{\left( 1 \right)}=\varphi \left( \boldsymbol{z}^{\left( 1 \right)} \right)$

关于维数和上下标的说明： $\boldsymbol{b}$ ， $\boldsymbol{z}$ 和 $\boldsymbol{a}$ 都是列向量，维数取决于这一层的行数，比如上图第一层有M个神经元，则 $\boldsymbol{b}^{(1)}$ ， $\boldsymbol{z}^{(1)}$ 和 $\boldsymbol{a}^{(1)}$ 都是M维列向量；上标表示第几层，下标表示连接关系。例如 $\boldsymbol{w}^{\left( k \right)}_{ij}$ 表示第 $(k - 1)$ 层的第 $j$ 个输出到第 $(k)$ 层的第 $i$ 个神经元的参数。

PS： $\boldsymbol{x}=\boldsymbol{a}^{\left( 0 \right)}$

那么多层神经网络就是上面的重复级联，每一层的行数不一定相等。为方便表示，我们默认一共有 $l$ 层，则：
$\begin{aligned} \boldsymbol{x}&\Rightarrow \boldsymbol{w}^{\left( 1 \right)}\boldsymbol{x}+\boldsymbol{b}^{\left( 1 \right)}=\boldsymbol{z}^{\left( 1 \right)}\xrightarrow{\varphi}\boldsymbol{a}^{\left( 1 \right)} \\ &\Rightarrow \boldsymbol{w}^{\left( 2 \right)}\boldsymbol{a}^{\left( 1 \right)}+\boldsymbol{b}^{\left( 2 \right)}=\boldsymbol{z}^{\left( 2 \right)}\xrightarrow{\varphi}\boldsymbol{a}^{\left( 2 \right)} \\ &\Rightarrow \cdots \cdots \cdots \cdots \cdots \cdots\cdots \xrightarrow{\varphi} \boldsymbol{a}^{\left( l-1 \right)} \\ &\Rightarrow \boldsymbol{w}^{\left( l \right)}\boldsymbol{a}^{\left( l-1 \right)}+\boldsymbol{b}^{\left( l \right)}=\boldsymbol{z}^{\left( l \right)}\xrightarrow{\varphi}\boldsymbol{a}^{\left( l \right)}=\boldsymbol{y} \end{aligned}$
为方便计算，我们定义： $\delta _{i}^{\left( m \right)}=\frac{\partial E}{\partial z_{i}^{\left( m \right)}}$

最后一层 $(m = l)$
$\begin{aligned} \delta _{i}^{\left( l \right)}&=\frac{\partial E}{\partial z_{i}^{\left( l \right)}}=\frac{\partial E}{\partial y_i}\frac{\partial y_i}{\partial z_{i}^{\left( l \right)}} \\ &=\left( y_i-Y_i \right) \varphi '\left( z_{i}^{\left( l \right)} \right) \end{aligned}$
非最后一层 $(m=1\sim l-1)$
$\begin{aligned} \delta _{i}^{\left( m \right)}&=\frac{\partial E}{\partial z_{i}^{\left( m \right)}}=\frac{\partial E}{\partial a_{i}^{\left( m \right)}}\frac{\partial a_{i}^{\left( m \right)}}{\partial z_{i}^{\left( m \right)}} \\ &=\left( \sum_{j=1}^{S_{m+1}}{\frac{\partial E}{\partial a_{i}^{\left( m+1 \right)}}} \right) \varphi '\left( z_{i}^{\left( m \right)} \right) \\ &=\left( \sum_{j=1}^{S_{m+1}}{w_{ji}^{\left( m+1 \right)}\delta _{j}^{\left( m+1 \right)}} \right) \varphi '\left( z_{i}^{\left( m \right)} \right) \end{aligned}$

这就是反向传播算法的名词由来，先计算最后的偏导数，再逐层向前推进

计算出 $\delta _{i}^{\left( m \right)}$ 后，可以很方便计算出：
$\begin{aligned} &\frac{\partial E}{\partial w_{ij}^{\left( m \right)}}=\frac{\partial E}{\partial z_{i}^{\left( m \right)}}\frac{\partial z_{i}^{\left( m \right)}}{\partial w_{ij}^{\left( m \right)}}=\delta _{i}^{\left( m \right)}a_{j}^{\left( m-1 \right)} \\ &\frac{\partial E}{\partial b_{i}^{\left( m \right)}}=\frac{\partial E}{\partial z_{i}^{\left( m \right)}}\frac{\partial z_{i}^{\left( m \right)}}{\partial b_{i}^{\left( m \right)}}=\frac{\partial E}{\partial z_{i}^{\left( m \right)}}=\delta _{i}^{\left( m \right)} \end{aligned}$

BP算法：

随机初始化 $\left( \boldsymbol{w},\boldsymbol{b} \right)$
训练样本 $\left( \boldsymbol{x},\boldsymbol{Y} \right)$ ，输入网络前向传播可求出所有的 $\left( \boldsymbol{z},\boldsymbol{a},\boldsymbol{y} \right)$
通过上述迭代方法计算出 $\left( \frac{\partial E}{\partial w_{ij}^{\left( m \right)}},\frac{\partial E}{\partial b_{i}^{\left( m \right)}} \right)$
更新：
$\begin{aligned} &\boldsymbol{w}^{\left( \text{新} \right)}=\boldsymbol{w}^{\left( \text{旧} \right)}-\alpha \frac{\partial E}{\partial \boldsymbol{w}}\mid_{\boldsymbol{w}^{\left( \text{旧} \right)}}^{} \\ &\boldsymbol{b}^{\left( \text{新} \right)}=\boldsymbol{b}^{\left( \text{旧} \right)}-\alpha \frac{\partial E}{\partial \boldsymbol{b}}\mid_{\boldsymbol{b}^{\left( \text{旧} \right)}} \end{aligned}$
回到(2)，跳出循环条件： $\left( \frac{\partial E}{\partial w_{ij}^{\left( m \right)}},\frac{\partial E}{\partial b_{i}^{\left( m \right)}} \right)$ 足够小，或者 $E$ 足够小

这是通过反向传播算法（BP算法）训练多层神经网络的基本方法，但是训练多层神经网络特别是深层神经网络是个错综复杂的问题，下面会讨论到。

激活函数 $\varphi(\cdot)$ 的选择

若使用感知机的激活函数 $\varphi\left( x \right)=u(x)$ ，则 $\varphi '\left( x \right) \equiv 0$ （不考虑奇异函数，在x=0不可导就当x=0无定义）

由于 $\varphi '\left( x \right) \equiv 0$ 导致使用反向传播算法计算出来的关于各个参数的偏导数为0，则没有办法用梯度下降法优化模型，因此必须更换激活函数 $\varphi\left( \cdot \right)$

sigmoid函数

sigmoid函数是阶跃函数的模拟，并且做到了处处可导。
$\varphi \left( x \right) =\frac{1}{1+e^{-x}} \\ \varphi '\left( x \right) =\varphi \left( x \right) \left[ 1-\varphi \left( x \right) \right]$

tanh函数

$\varphi \left( x \right) =\tanh \left( x \right) =\frac{e^x-e^{-x}}{e^x+e^{-x}} \\ \varphi '\left( x \right) =1-\varphi ^2\left( x \right)$

以上的激活函数都有一个问题，就是在x远离原点处的导数为0，这在深度网络的反向传播中通常会出现梯度消失（弥散）的现象，导致深层网络难以训练的问题。因此在深度学习出现以后，常常采用以下激活函数。

ReLU函数

修正线性单元（Rectify Linear Units）

$\varphi \left( x \right) =\begin{cases} x, x>0\\ 0, x\leqslant 0\\ \end{cases}=\max \left\{ 0,x \right\} \\ \varphi '\left( x \right) =\begin{cases} 1, x>0\\ 0, x< 0\\ \end{cases}$

在x>0时的梯度弥散现象得到解决，但x<0时仍然存在梯度弥散现象

Leak ReLU函数

$\varphi \left( x \right) =\begin{cases} x, x>0\\ \beta x, x\leqslant 0\\ \end{cases} \\ \varphi '\left( x \right) =\begin{cases} 1, x>0\\ \beta , x<0\\ \end{cases}$

神经网络参数设置方法

随机梯度下降

随机梯度（Stochastic Gradient Descent, SGD）

不用每输入一个样本就去变换参数，而是输入一批样本（叫做一个BATCH或MINI-BATCH），求出这些样本的梯度平均值后，根据这个平均值改变参数。(GD是BATCH为1的SGD)
在神经网络训练中，BATCH的样本数大致设置为50-200不等。

激活函数选择

训练数据初始化

标准差 $s t d$ 也可以用 $(m a x - m i n)$ 来代替

$(\boldsymbol{w},b)$ 的初始化

梯度消失现象：如果 $\boldsymbol{w}^T\boldsymbol{x}+b$ 一开始很大或很小，那么梯度将趋近于0，反向传播后前面与之相关的梯度也趋近于0，导致训练缓慢。因此，我们要使 $\boldsymbol{w}^T\boldsymbol{x}+b$ 一开始在零附近。

一种比较简单有效的方法是： $(\boldsymbol{w},b)$ 初始化从区间 $\left( -\frac{1}{\sqrt{d}},\frac{1}{\sqrt{d}} \right)$ 均匀随机取值。其中 $d$ 为 $(\boldsymbol{w},b)$ 所在层的神经元个数。

可以证明，如果 $\boldsymbol{x}$ 服从正态分布，均值0，方差1，且各个维度无关，而 $(\boldsymbol{w},b)$ 是 $\left( -\frac{1}{\sqrt{d}},\frac{1}{\sqrt{d}} \right)$ 的均匀分布，则 $\boldsymbol{w}^T\boldsymbol{x}+b$ 是均值为0，方差为1/3的正态分布。

参数初始化是一个研究热点领域

Batch normalization

论文：Batch normalization accelerating deep network training by reducing internal covariate shift (2015)

基本思想：既然我们希望每一层获得的值都在0附近，从而避免梯度消失现象，那么我们为什么不直接把每一层的值做基于均值和方差的归一化呢？

对 $\gamma$ 和 $\beta$ 的说明：以sigmoid和tanh为例，若归一化后的样本过于聚集在0附近，则激活函数对外表现出几乎的线性，这是我们不希望看到的。因此增加了 $\gamma$ 和 $\beta$ 两个待学习的参数，使归一化在避免梯度消失和失去非线性中权衡。

目标函数选择

可加正则项（Regulation Term）
$L\left( w \right) =F\left( w \right) +R\left( w \right) =\frac{1}{2}\left( \sum_{i=1}^{batchsize}{\lVert y_i-Y_i \rVert ^2+\beta \sum_k^{}{\sum_l^{}{w_{k,l}^{2}}}} \right) \\$
如果是分类问题， $F (w)$ 可以采用Softmax函数和交叉熵的组合

（a）Softmax函数

$q_i=\frac{\exp \left( z_i \right)}{\sum_{j=1}^N{\exp \left( z_j \right)}},\sum_{i=1}^N{q_i}=1$

（b）交叉熵（Cross Entropy）
$E=-\sum_{i=1}^N{Y_i\log \left( y_i \right)}$

交叉熵可以作为误差函数，上面我们使用的误差函数为MSE，即 $E=\frac{1}{2}\sum_{i=1}^N{\lVert y_i-Y_i \rVert ^2}$ 。对于交叉熵，当 $p$ 和 $q$ 的分布越相近时， $E$ 的值越小。

综上，我们可以使用Softmax函数和交叉熵的组合作为目标函数：
$E=-\sum_{i=1}^N{p_i\log \left( q_i \right)}$

并且它的求导将会有非常简单的形式： $\frac{\partial E}{\partial z_i}=q_i-p_i$

参数更新策略

常规的更新（Vanilla Stochastic Gradient Descent）

nn.W{k} = nn.W{k} - nn.learning_rate*nn.W_grad{k};
nn.b{k} = nn.b{k} - nn.learning_rate*nn.b_grad{k};

SGD的问题：

（1） $(\boldsymbol{w},b)$ 的每一个分量获得的梯度绝对值有大有小，一些情况下，将会迫使优化路径变成Z字形状

（2）SGD求梯度的策略过于随机，由于上一次和下一次用的是完全不同的BATCH数据，将会出现优化的方向随机的情况。

AdaGrad（解决各个方向梯度不一致问题）

基本思想是：（1）引入了累计梯度的思想，希望这个梯度可以受过去梯度的影响；（2）对每一个梯度做了均值化，原来梯度大的地方变小一些，原来梯度小的地方放大一些，避免Z字形下降。

RMSProp（解决各个方向梯度不一致问题）

与AdaGrad唯一的区别是 $\gamma \gets \rho \gamma +\left( 1-\rho \right) g\odot g$ ，引入了一个新的参数 $\rho$ 用于权衡过去梯度和现在梯度的权值

Momentum（解决梯度随机性问题）

nn.vW{k} = 0.5*nn.vW{k} + nn.learning_rate*nn.W_grad{k};
 
nn.vb{k} = 0.5*nn.vb{k} + nn.learning_rate*nn.b_grad{k};
            
nn.W{k} = nn.W{k} - nn.vW{k};
nn.b{k} = nn.b{k} - nn.vb{k}; %rho = 0.5;

Momentum（动量）考虑了上一个梯度的对当前梯度的影响（AdaGrad和RMSProp考虑的是累计梯度对当前梯度的影响，没有Momentum那么有“冲劲”）

Adam（同时解决两个问题）

$r$ 是累计梯度，作为$\bigtriangleup\varTheta $的分母可以解决各个方向梯度不一致；$ s $是动量梯度，作为$ \bigtriangleup \varTheta $的分子可以解决梯度随机性问题

训练建议

（1）一般情况下，在训练集上的目标函数的平均值（cost）会随着训练的深入而不断减小，如果这个指标有增大情况，停下来。有两种情况：第一是采用的模型不够复杂，以致于不能在训练集上完全拟合；第二是已经训练很好了。

（2）分出一些验证集（Validation Set）,训练的本质目标是在验证集上获取最大的识别率。因此训练一段时间后，必须在验证集上测试识别率，保存使验证集上识别率最大的模型参数，作为最后结果。

（3）注意调整学习率（Learning Rate）,如果刚训练几步cost就增加，一般来说是学习率太高了；如果每次cost变化很小，说明学习率太低。

（4） Batch Normalization 比较好用，用了这个后，对学习率、参数更新策略等不敏感。建议如果用Batch Normalization, 更新策略用最简单的SGD即可，我的经验是加上其他反而不好。

（5）如果不用Batch Normalization, 我的经验是，合理变换其他参数组合，也可以达到目的。

（6）由于梯度累积效应，AdaGrad, RMSProp, Adam三种更新策略到了训练的后期会很慢，可以采用提高学习率的策略来补偿这一效应。

机器学习Pandas_learn3 XW-ABAP 机器学习 pandas
frompandasimportDataFrameimportnumpypaints={"车名":["奥迪Q5L","哈弗H6","奔驰GLC"],"最低报价":[numpy.nan,9.80,numpy.nan],"最高报价":[49.80,23.10,58.78]}goods_in=DataFrame(paints,index=[1,2,3])print(goods_in)goods_in_n
机器学习中输入输出Tokens的概念详解爱吃土豆的程序员机器学习基础机器学习人工智能 Tokens
随着深度学习技术的快速发展，大语言模型（LargeLanguageModels,LLMs）已经成为自然语言处理（NLP）领域的一个热点研究方向。这些模型不仅能够生成高质量的文本，还能在多种任务中展现出卓越的表现，比如机器翻译、问答系统、文本摘要等。在大语言模型的工作流程中，Tokens的概念扮演着至关重要的角色。本文将详细介绍大语言模型如何使用Tokens，以及如何计算Tokens的数量。什么是T
【sklearn 01】人工智能概述 @金色海岸人工智能 sklearn python
一、人工智能，机器学习，深度学习人工智能指由人类制造出的具有智能的机器。这是一个非常大的范围，长远目标是让机器实现人工智能，但目前我们仍处在非常初始的阶段，甚至不能称为智能机器学习是指通过数据训练出能完成一定功能的模型，是实现人工智能的手段之一，也是目前最主流的人工智能实现方法深度学习则是机器学习的分支，超过8层的神经网络模型就叫深度学习，深度即层数。深度学习目前在语音、图像等领域取得很好的效果
【AI】使用Python实现机器学习小项目教程丶2136 AI 人工智能 python 机器学习
引言在本教程中，我们将带领您使用Python编程语言实现一个经典的机器学习项目——鸢尾花（Iris）分类。通过这个项目，您将掌握机器学习的基本流程，包括数据加载、预处理、模型训练、评估和优化等步骤。论文AIGC检测，降AIGC检测，AI降重，三连私信免费获取：ReduceAIGC9折券！DetectAIGC立减2元券！AI降重9折券！目录引言一、项目背景与目标二、开发环境准备2.1所需工具2.2环
AI人工智能中的概率论与统计学原理与Python实战：Python实现概率模型 AI天才研究院 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的不断发展，概率论与统计学在人工智能领域的应用越来越广泛。概率论与统计学是人工智能中的基础知识之一，它们在机器学习、深度学习、自然语言处理等领域都有着重要的作用。本文将介绍概率论与统计学的核心概念、算法原理、具体操作步骤以及Python实现方法，并通过具体代码实例进行详细解释。2.核心概念与联系2.1概率论与统计学的区别概率论是一门数学学科，它研究随机事件发生的可能性。
技术解析麦萌短剧《月光下的你》：从「时间序列的对抗扰动」到「加密身份的收敛证明」萌萌短剧重构
《月光下的你》以十六年的时间跨度展开一场关于「数据污染」与「身份验证」的深度博弈，本文将用机器学习视角拆解这场跨越时空的模型纠偏实验。1.数据污染事件：十六年前的对抗攻击许芳菲（Agent_Xu）的遭遇可视为时间序列上的对抗样本注入：标签篡改攻击：许清清（Adversary_XuQing）通过伪造标签（Label_Tampering）将Agent_Xu与傅临州（Node_Fu）强行关联，触发道德约
机器学习 [白板推导]（三）[线性分类] 神齐的小马机器学习分类人工智能
4.线性分类4.1.线性分类的典型模型硬分类：输出结果只有0或1这种离散结果；感知机线性判别分析Fisher软分类：会输出0-1之间的值作为各个类别的概率；概率生成模型：高斯判别分析GDA、朴素贝叶斯，主要建模的是p(x⃗,y)p(\vec{x},y)p(x,y)概率判别模型：逻辑回归，主要建模的是p(y∣x⃗)p(y|\vec{x})p(y∣x)4.2.感知机4.2.1.基本模型模型：f(x
Ollama 基本概念 Mr_One_Zhang 学习Ollama ai
Ollama是一个本地化的、支持多种自然语言处理（NLP）任务的机器学习框架，专注于模型加载、推理和生成任务。通过Ollama，用户能够方便地与本地部署的大型预训练模型进行交互。1.模型（Model）在Ollama中，模型是核心组成部分。它们是经过预训练的机器学习模型，能够执行不同的任务，例如文本生成、文本摘要、情感分析、对话生成等。Ollama支持多种流行的预训练模型，常见的模型有：deepse
人工智能直通车系列24【机器学习基础】（机器学习模型评估指标（回归））浪九天人工智能直通车开发语言 python 机器学习深度学习神经网络人工智能
目录机器学习模型评估指标（回归）1.均方误差（MeanSquaredError,MSE）2.均方根误差（RootMeanSquaredError,RMSE）3.平均绝对误差（MeanAbsoluteError,MAE）4.决定系数（CoefficientofDetermination,R2）机器学习模型评估指标（回归）1.均方误差（MeanSquaredError,MSE）详细解释均方误差是回归问
从零开始学机器学习——构建一个推荐web应用努力的小雨机器学习机器学习前端人工智能
首先给大家介绍一个很好用的学习地址：https://cloudstudio.net/columns今天，我们终于将分类器这一章节学习完活了，和回归一样，最后一章节用来构建web应用程序，我们会回顾之前所学的知识点，并新增一个web应用用来让模型和用户交互。所以今天的主题是美食推荐。美食推荐Web应用程序首先，请不要担心，本章节并不会涉及过多的前端知识点。我们此次的学习重点在于机器学习本身，因此我们
Python自动化炒股：利用XGBoost和LightGBM进行股票市场预测的实战案例云策量化 Python自动化炒股量化投资量化软件 python 量化交易 QMT PTrade 量化炒股量化投资 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？个人账户可以申请吗？》Python自动化炒股：利用XGBoost和LightGBM进行股票市场预测的实战案例在当今快节奏的金融市场中，自动化交易和预测模型成为了投资者和交易者的重要工具。Python以其强大的数据处理能力和丰富的机器学习库，成为了实现这些模型的首选语言。本文将带你了解如何使用XGBoost和LightGBM这两个流行的机器学习算法来
【sklearn 04】DNN、CNN、RNN @金色海岸 sklearn dnn cnn
DNNDNN（DeepNeuralNetworks，深度神经网络）是一种相对浅层机器学习模型具有更多参数，需要更多数据进行训练的机器学习算法CNNCNN（convolutionalNeuralNetworks，卷积神经网络）是一种从局部特征开始学习并逐渐整合的神经网络。卷积神经网络通过卷积层来进行特征提取，通过池化层进行降维，相比较全连接的神经网络，卷积神经网络降低了模型复杂度，减少了模型的参数，
【sklearn 02】监督学习、非监督下学习、强化学习 @金色海岸 sklearn 学习人工智能
监督学习、非监督学习、强化学习**机器学习通常分为无监督学习、监督学习和强化学习三类。-第一类：无监督学习（unsupervisedlearning），指的是从信息出发自动寻找规律，分析数据的结构，常见的无监督学习任务有聚类、降维、密度估计、关联分析等。-第二类：监督学习（supervisedlearning），监督学习指的是使用带标签的数据去训练模型，并预测未知数据的标签。监督学习有两种，当预测
从LLM出发：由浅入深探索AI开发的全流程与简单实践（全文3w字）码事漫谈 AI 人工智能
文章目录第一部分：AI开发的背景与历史1.1人工智能的起源与发展1.2神经网络与深度学习的崛起1.3Transformer架构与LLM的兴起1.4当前AI开发的现状与趋势第二部分：AI开发的核心技术2.1机器学习：AI的基础2.1.1机器学习的类型2.1.2机器学习的流程2.2深度学习：机器学习的进阶2.2.1神经网络基础2.2.2深度学习的关键架构2.3Transformer架构：现代LLM的核
纳米尺度仿真软件：Quantum Espresso_（20）.机器学习在QuantumEspresso中的应用 kkchenjj 分子动力学2 机器学习人工智能模拟仿真仿真模拟分子动力学
机器学习在QuantumEspresso中的应用在现代材料科学和纳米技术的研究中，机器学习（ML）技术已经成为一种强大的工具，用于加速和优化量子力学计算。QuantumEspresso是一个广泛使用的开源软件包，用于进行第一性原理计算，特别是在纳米尺度材料的模拟中。本节将介绍如何将机器学习技术应用于QuantumEspresso，以提高计算效率、预测材料性质和优化结构。1.机器学习与第一性原理计算
新手村：数据预处理-异常值检测方法嘉羽很烦机器学习机器学习
机器学习中异常值检测方法一、前置条件知识领域要求编程基础Python基础（变量、循环、函数）、JupyterNotebook或PyCharm使用。统计学基础理解均值、中位数、标准差、四分位数、正态分布、Z-score等概念。机器学习基础熟悉监督/无监督学习、分类、聚类、回归等基本概念。数据预处理数据清洗、特征缩放（标准化/归一化）、数据可视化（Matplotlib/Seaborn）。二、渐进式学习
新手村：数据预处理-特征缩放嘉羽很烦机器学习线性回归算法机器学习
新手村：数据预处理-特征缩放特征缩放（FeatureScaling）是数据预处理中的一个重要步骤，特别是在应用某些机器学习算法时。特征缩放可以使不同尺度的特征具有相同的量级，从而提高模型训练的效率和性能。常见的特征缩放方法包括标准化（Standardization）和归一化（Normalization）。常见的特征缩放方法标准化（Standardization）将特征转换为均值为0，标准差为1的标
过拟合：机器学习中的“死记硬背”陷阱彩旗工作室人工智能机器学习人工智能
在机器学习中，过拟合（Overfitting）是一个几乎每个从业者都会遇到的经典问题。它像一把双刃剑：当模型过于“聪明”时，可能会陷入对训练数据的过度依赖，从而失去处理新问题的能力。本文将从原理到实践，深入探讨过拟合的本质及应对策略。1.什么是过拟合？过拟合是指模型在训练数据上表现极佳，但在新数据（测试数据或真实场景数据）上表现显著下降的现象。通俗来说，模型像一个“死记硬背的学生”，记住了训练集中
【Python】已解决：pip安装第三方模块（库）与PyCharm中不同步的问题（PyCharm添加本地python解释器）屿小夏 python pip pycharm
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
如何在github上参与开源项目这个懒人 github 开源软件
1.创建GitHub账号如果你还没有GitHub账号，首先需要注册一个：访问GitHub官网。点击右上角的“Signup”按钮，填写注册信息并完成注册。2.找到感兴趣的项目GitHub上有成千上万的开源项目，你可以通过以下方式找到感兴趣的项目：搜索项目：在GitHub首页的搜索框中输入关键词，例如“机器学习”、“Web开发”等。使用高级搜索功能，通过语言、标签等过滤条件找到合适的项目。浏览Tren
【AI大模型智能应用】Deepseek生成测试用例柳柳的博客 AI大模型测试用例
在软件开发过程中，测试用例的设计和编写是确保软件质量的关键。然而，软件系统的复杂性不断增加，手动编写测试用例的工作量变得异常庞大，且容易出错。DeepSeek基于人工智能和机器学习，它能够依据软件的需求和设计文档，自动生成高质量的测试用例，显著减轻人工编写测试用例的负担。体验一把用DeepSeek编写测试用例，还生成清晰直观的思维导图，整个流程十分顺畅。这篇文章讲解如何使用deepseek生成功能
Python依赖管理工具分析 xdpcxq1029 python 开发语言
Python的依赖管理工具一直没有标准化，原因主要包括：历史发展的随意性：Python发展早期对于依赖管理的重视程度不足，缺乏从一开始就进行统一规划和设计的意识社区的分散性：Python社区庞大且分散，众多开发者和团队各自为政，根据自己的需求和偏好开发工具，缺乏统一的协调和整合机制多样化的使用场景：Python应用场景广泛，从Web开发到数据科学、机器学习、系统管理脚本等。不同场景对依赖管理有着不
【人工智能基础2】机器学习、深度学习总结 roman_日积跬步-终至千里人工智能习题人工智能机器学习深度学习
文章目录一、人工智能关键技术二、机器学习基础1.监督、无监督、半监督学习2.损失函数：四种损失函数3.泛化与交叉验证4.过拟合与欠拟合5.正则化6.支持向量机三、深度学习基础1、概念与原理2、学习方式3、多层神经网络训练方法一、人工智能关键技术领域基础原理与逻辑机器学习机器学习基于数据，研究从观测数据出发寻找规律，利用这些规律对未来数据进行预测。基于学习模式，机器学习可以分为监督、无监督、强化学习
Python精进系列： K-Means 聚类算法调用库函数和手动实现对比分析进一步有进一步的欢喜 Python 精进系列算法 python kmeans
一、引言在机器学习领域，聚类分析是一种重要的无监督学习方法，用于将数据集中的样本划分为不同的组或簇，使得同一簇内的样本具有较高的相似性，而不同簇之间的样本具有较大的差异性。K-Means聚类算法是最常用的聚类算法之一，它以其简单性和高效性在数据挖掘、图像分割、模式识别等领域得到了广泛应用。本文将详细介绍K-Means聚类算法，并分别给出调用现成函数和不调用任何现成函数实现K-Means聚类的代码示
热门AI创作助手推荐【第一期】量子星澜文心一言 AI写作 chatgpt
星游AI创作助手人工智能在现代科技中的应用非常广泛，涵盖了诸多领域，包括但不限于以下几个方面：1.语音识别和自然语言处理：人工智能技术被广泛应用于语音识别和自然语言处理领域，例如智能助手、翻译系统、语音交互系统等。2.机器学习和数据分析：人工智能的机器学习算法被用于数据分析、预测建模、用户个性化推荐等领域，帮助企业做出更准确的商业决策。3.计算机视觉：人工智能在计算机视觉领域的应用包括图像识别、视
新手村：线性回归-实战-波士顿房价预测嘉羽很烦机器学习线性回归算法回归
新手村：线性回归-实战-波士顿房价预测前置条件阅读：新手村：线性回归了解相关概念实验目的1.熟悉机器学习的一般流程2.掌握基础的数据处理方法3.理解常用的回归算法教学例子：预测房价（以波士顿房价数据集为例）本次实验，你将使用真实的波士顿房价数据集建立起一个房价预测模型，并且了解到机器学习中的若干重要概念和评价方法，请通过机器学习建立回归模型，即:Y=θ0+θ1×X1+θ2×X2+θ3×X3+⋯+θ
【解锁机器学习：探寻数学基石】游戏乐趣机器学习人工智能
机器学习中的数学基础探秘在当今数字化时代，机器学习无疑是最具影响力和发展潜力的技术领域之一。从图像识别到自然语言处理，从智能推荐系统到自动驾驶，机器学习的应用无处不在，深刻地改变着我们的生活和工作方式。然而，在这看似神奇的机器学习背后，数学作为其坚实的理论基础，起着不可或缺的关键作用。毫不夸张地说，数学是打开机器学习大门的钥匙，是理解和掌握机器学习算法与模型的核心所在。想象一下，机器学习就像是一座
机器学习——正则化、欠拟合、过拟合、学习曲线代码的建筑师学习记录机器学习机器学习学习曲线过拟合欠拟合正则化
过拟合（overfitting）:模型只能拟合训练数据的状态。即过度训练。避免过拟合的几种方法：①增加全部训练数据的数量（最为有效的方式）②使用简单的模型（简单的模型学不够，复杂的模型学的太多），这里的简单指的是不要过于复杂③正则化（对目标函数后加上正则化项）：使得这个“目标函数+正则化项”的值最小，即为正则化，用防止参数变得过大（参数值变小，意味着对目标函数的影响变小），λ是正则化参数，代表正则
从过拟合到强化学习：机器学习核心知识全解析吴师兄大模型 0基础实现机器学习入门到精通机器学习人工智能过拟合强化学习 python LLM scikit-learn
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
利用matlab实现贝叶斯优化算法（BO）优化支持向量机回归(SVR)的超参数是内啡肽耶算法 matlab 支持向量机机器学习回归
【导读】在机器学习建模中，支持向量机（SVM）回归模型的效果高度依赖超参数选择。但手动调参就像"大海捞针"，而网格搜索又面临"计算爆炸"的难题。今天给大家介绍一个智能调参黑科技——贝叶斯优化算法。通过Matlab实现，只需几分钟就能让模型性能自动升级！一、为什么要用贝叶斯优化调参？传统调参三大痛点：C参数（正则化强度）：过小导致过拟合，过大削弱模型能力ε参数（不敏感区域）：决定对预测误差的容忍度核
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理