allein_STR

【九问九答】你真的会优化网络吗？

1. 神经网络有什么难点问题？

2. 训练神经网络时常用的优化算法有什么？

（1）小批量梯度下降（Mini-Batch Gradient Descent）.

为什么要使用小批量梯度下降法？

影响小批量梯度下降法的主要因素有什么？

3. 学习率详细介绍

（1）学习率衰减是什么

（2）学习率衰减方法有什么

（3）学习率预热是什么

（4）自适应调整学习率的方法有什么

AdaGrad算法

RMSprop算法

AdaDelta算法

4. 梯度估计修正方法有什么

1）动量法

2）Nesterov加速梯度

3）Adam算法

4）梯度截断

5. 优化算法汇总与比较

6. 参数初始化的方法有什么

（1）预训练初始化

（2）随机初始化

常用的随机初始化方法有什么？

（3）固定值初始化

（4）正交初始化

7. 数据归一化必要性及方法是什么

（1）为什么要进行数据预处理

（2）常用的归一化方法有什么

1）缩放归一化

2）标准归一化

3）白化

4）批量归一化

5）层归一化

6）权重归一化

8. 超参数优化

（1）常见的超参数有哪几类？

（2）超参数优化难点是什么？

（3）超参数优化方法有什么？

9. 数据增强方法有什么

1. 神经网络有什么难点问题？

（1）优化问题：神经网络模型是一个非凸函数，再加上在深度网络中的梯度消失问题，很难进行优化；另外，深度神经网络模型一般参数比较多，训练数据也比较大，会导致训练的效率比较低. （2）泛化问题：因为神经网络的拟合能力强，反而容易在训练集上产生过拟合. 因此在训练深度神经网络时，同时也需要通过一定的正则化方法来改进网络的泛化能力。

2. 训练神经网络时常用的优化算法有什么？

（1）小批量梯度下降（Mini-Batch Gradient Descent）.

为什么要使用小批量梯度下降法？

在训练深度神经网络时，训练数据的规模通常都比较大. 如果在梯度下降时，每次迭代都要计算整个训练数据上的梯度，这就需要比较多的计算资源.

另外大规模训练集中的数据通常会非常冗余，也没有必要在整个训练集上计算梯度. 因此，在训练深度神经网络时，经常使用小批量梯度下降法（Mini-Batch Gradient Descent）.

影响小批量梯度下降法的主要因素有什么？

为了更有效地训练深度神经网络，在标准的小批量梯度下降法的基础上，也经常使用一些改进方法以加快优化速度，比如如何选择批量大小、如何调整学习率以及如何修正梯度估计

1）批量大小

批量大小（Batch Size）对网络优化的影响也非常大. 一般而言，批量大小不影响随机梯度的期望，但是会影响随机梯度的方差. 批量大小越大，随机梯度的方差越小，引入的噪声也越小，训练也越稳定，因此可以设置较大的学习率. 而批量大小较小时，需要设置较小的学习率，否则模型会不收敛. 学习率通常要随着批量大小的增大而相应地增大

下图为从 Epoch（回合）和 Iteration（单次更新）两个角度看，批量大小对损失下降的影响.

每一次小批量更新为一次Iteration，所有训练集的样本更新一遍为一次Epoch，两者的关系为 1个 Epoch等于( 训练样本的数量 / 批量大小 )次Iterations.

关于图的分析：

从图a可以看出，批量大小越大，下降效果越明显，并且下降曲线越平滑.

但从图b可以看出，如果按整个数据集上的回合（Epoch）数来看，则是批量样本数越小，适当小的批量大小会导致更快的收敛.

批量大小和模型的泛化能力的也有一定的关系. 研究发现：批量大小越大，越有可能收敛到陡峭最小值；批量大小越小，越有可能收敛到平坦最小值

2）学习率

学习率是神经网络优化时的重要超参数. 在梯度下降法中，学习率的取值非常关键，如果过大就不会收敛，如果过小则收敛速度太慢. 常用的学习率调整方法包括学习率衰减、学习率预热、周期性学习率调整以及一些自适应调整学习率的方法，比如 AdaGrad、RMSprop、AdaDelta 等. 自适应学习率方法可以针对每个参数设置不同的学习率.

3）梯度估计.

在随机（小批量）梯度下降法中，如果每次选取样本数量比较小，损失会呈现振荡的方式下降. 也就是说，随机梯度下降方法中每次迭代的梯度估计和整个训练集上的最优梯度并不一致，具有一定的随机性. 一种有效地缓解梯度估计随机性的方式是通过使用最近一段时间内的平均梯度来代替当前时刻的随机梯度来作为参数更新的方向，从而提高优化速度.

3. 学习率详细介绍

（1）学习率衰减是什么

经验上看，学习率在一开始要保持大些来保证收敛速度，在收敛到最优点附近时要小些以避免来回振荡. 比较简单的学习率调整可以通过学习率衰减（Learning Rate Decay）的方式来实现，也称为学习率退火（Learning Rate Annealing）.

（2）学习率衰减方法有什么

<1>分段常数衰减（Piecewise Constant Decay）：

即每经过1 , 2 , ⋯ , 次迭代将学习率衰减为原来的1 , 2 , ⋯ , 倍，其中和 < 1为根据经验设置的超参数. 分段常数衰减也称为阶梯衰减（Step Decay）.

<2>逆时衰减（Inverse Time Decay）：

$\alpha_{t}=\alpha_{0} \frac{1}{1+\beta \times t}$

其中为衰减率

<3>指数衰减（Exponential Decay）：

$\alpha_{t}=\alpha_{0} \beta^{t}$

其中 < 1为衰减率

<4>自然指数衰减（Natural Exponential Decay）：

$\alpha_{t}=\alpha_{0} \exp (-\beta \times t)$

其中为衰减率.

<5>余弦衰减（Cosine Decay）：

$\alpha_{t}=\frac{1}{2} \alpha_{0}\left(1+\cos \left(\frac{t \pi}{T}\right)\right)$

其中为总的迭代次数

不同衰减方法的比较：

（3）学习率预热是什么

为了提高训练稳定性，我们可以在最初几轮迭代时，采用比较小的学习率，等梯度下降到一定程度后再恢复到初始的学习率，这种方法称为学习率预热（Learning Rate Warmup）.

一个常用的学习率预热方法是逐渐预热（Gradual Warmup）

假设预热的迭代次数为 ′，初始学习率为 0，在预热过程中，每次更新的学习率为

$\alpha_{t}^{\prime}=\frac{t}{T^{\prime}} \alpha_{0}, \quad 1 \leq t \leq T^{\prime}$

当预热过程结束，再选择一种学习率衰减方法来逐渐降低学习率.

（4）自适应调整学习率的方法有什么

AdaGrad算法

AdaGrad（Adaptive Gradient）算法是借鉴ℓ2 正则化的思想，每次迭代时自适应地调整每个参数的学习率. 在第次迭代时，先计算每个参数梯度平方的累计值

$G_{t}=\sum_{\tau=1}^{t} \boldsymbol{g}_{\tau} \odot \boldsymbol{g}_{\tau}$

其中⊙为按元素乘积， ∈ ℝ|| 是第次迭代时的梯度

AdaGrad算法的参数更新差值为

$\Delta \theta_{t}=-\frac{\alpha}{\sqrt{G_{t}+\epsilon}} \odot g_{t}$

其中是初始的学习率，是为了保持数值稳定性而设置的非常小的常数，一般取值 −7 到 −10 .

在 AdaGrad 算法中，如果某个参数的偏导数累积比较大，其学习率相对较小；相反，如果其偏导数累积较小，其学习率相对较大. 但整体是随着迭代次数的增加，学习率逐渐缩小.

缺点：在经过一定次数的迭代依然没有找到最优点时，由于这时的学习率已经非常小，很难再继续找到最优点.

RMSprop算法

RMSprop算法是 Geoff Hinton 提出的一种自适应学习率的方法，可以在有些情况下避免 AdaGrad 算法中学习率不断单调下降以至于过早衰减的缺点.

RMSprop算法首先计算每次迭代梯度平方的指数衰减移动平均，

$\begin{aligned} G_{t} &=\beta G_{t-1}+(1-\beta) \boldsymbol{g}_{t} \odot \boldsymbol{g}_{t} \\ &=(1-\beta) \sum_{\tau=1}^{t} \beta^{t-\tau} \boldsymbol{g}_{\tau} \odot \boldsymbol{g}_{\tau} \end{aligned}$

其中为衰减率，一般取值为0.9.

RMSprop算法的参数更新差值为

$\Delta \theta_{t}=-\frac{\alpha}{\sqrt{G_{t}+\epsilon}} \odot g_{t}$

其中是初始的学习率，比如0.001.

在迭代过程中，每个参数的学习率并不是呈衰减趋势，既可以变小也可以变大.

AdaDelta算法

AdaDelta（算）法也是 AdaGrad 算法的一个改进. 和 RMSprop 算法类似，AdaDelta 算法通过梯度平方的指数衰减移动平均来调整学习率. 此外，AdaDelta 算法还引入了每次参数更新差值 Δ 的平方的指数衰减权移动平均

第次迭代时，参数更新差值Δ 的平方的指数衰减权移动平均为

$\Delta X_{t-1}^{2}=\beta_{1} \Delta X_{t-2}^{2}+\left(1-\beta_{1}\right) \Delta \theta_{t-1} \odot \Delta \theta_{t-1}$

其中1 为衰减率. 此时Δ 还未知，因此只能计算到Δ−1.

AdaDelta算法的参数更新差值为

$\Delta \theta_{t}=-\frac{\sqrt{\Delta X_{t-1}^{2}+\epsilon}}{\sqrt{G_{t}+\epsilon}} \mathrm{g}_{t}$

其中的计算方式和RMSprop算法一样， $\Delta X_{t-1}^{2}$ 为参数更新差值 Δ 的指数衰减权移动平均.

从上式可以看出，AdaDelta算法将 RMSprop算法中的初始学习率改为动态计算的 $\sqrt{\Delta X_{t-1}^{2}}$ ，在一定程度上平抑了学习率的波动.

4. 梯度估计修正方法有什么

1）动量法

动量（Momentum）是模拟物理中的概念. 一般而言，一个物体的动量指的是这个物体在它运动方向上保持运动的趋势，是物体的质量和速度的乘积. 动量法（Momentum Method）是用之前积累动量来替代真正的梯度. 每次迭代的梯度可以看作是加速度。

一般而言，在迭代初期，梯度方向都比较一致，动量法会起到加速作用，可以更快地到达最优点. 在迭代后期，梯度方向会不一致，在收敛值附近振荡，动量法会起到减速作用，增加稳定性.

2）Nesterov加速梯度

Nesterov 加速梯度（Nesterov Accelerated Gradient，NAG），也叫Nesterov 动量法（Nesterov Momentum）是一种对动量法的改进

动量法和Nesterov加速梯度在参数更新时的比较如图所示

3）Adam算法

自适应动量估计（Adaptive Moment Estimation，Adam）算法可以看作是动量法和 RMSprop 算法的结合，不但使用动量作为参数更新方向，而且可以自适应调整学习率.

Adam 算法一方面计算梯度平方 $\mathrm{g}_{t}^{2}$ 的指数加权平均（和 RMSprop 算法类似），另一方面计算梯度g 的指数加权平均（和动量法类似）

$\begin{array}{c} M_{t}=\beta_{1} M_{t-1}+\left(1-\beta_{1}\right) g_{t}, \\ G_{t}=\beta_{2} G_{t-1}+\left(1-\beta_{2}\right) g_{t_{0}} \odot g_{f t}, \end{array}$

其中1 和2 分别为两个移动平均的衰减率，通常取值为1 = 0.9, 2 = 0.99.

可以看作是梯度的均值（一阶矩），可以看作是梯度的未减去均值的方差（二阶矩）.

Adam算法的参数更新差值为

其中学习率通常设为0.001，并且也可以进行衰减，比如 $\alpha_{t}=\alpha_{0} / \sqrt{t}$

Adam 算法是 RMSProp 算法与动量法的结合，因此一种自然的 Adam 算法的改进方法是引入Nesterov加速梯度，称为Nadam算法

4）梯度截断

在深度神经网络或循环神经网络中，除了梯度消失之外，梯度爆炸也是影响学习效率的主要因素. 在基于梯度下降的优化过程中，如果梯度突然增大，用大的梯度更新参数反而会导致其远离最优点. 为了避免这种情况，当梯度的模大于一定阈值时，就对梯度进行截断，称为梯度截断（Gradient Clipping）

梯度截断是一种比较简单的启发式方法，把梯度的模限定在一个区间，当梯度的模小于或大于这个区间时就进行截断. 一般截断的方式有以下几种：

按值截断： 在第次迭代时，梯度为，给定一个区间[, ]，如果一个参数的梯度小于时，就将其设为；如果大于时，就将其设为.

$g_{t}=\max \left(\min \left(g_{t}, b\right), a\right)$

按模截断： 按模截断是将梯度的模截断到一个给定的截断阈值.

如果 $\|g_t\|^{2} \leq b$ ，保持不变. 如果 $\|g_t\|^{2} \geqslant b$ ，令

$\bar{g}_{t}=\frac{b}{\left\|\boldsymbol{g}_{t}\right\|} \bar{g}_{t}$

截断阈值是一个超参数，也可以根据一段时间内的平均梯度来自动调整. 实验中发现，训练过程对阈值并不十分敏感，通常一个小的阈值就可以得到很好的结果

5. 优化算法汇总与比较

该图为再MINIST数据集上的比较（学习率为 0.001，批量大小为128）.

6. 参数初始化的方法有什么

（1）预训练初始化

不同的参数初始值会收敛到不同的局部最优解. 虽然这些局部最优解在训练集上的损失比较接近，但是它们的泛化能力差异很大. 一个好的初始值会使得网络收敛到一个泛化能力高的局部最优解. 预训练初始化通常会提升模型泛化能力的一种解释是预训练任务起到一定的正则化作用. 通常情况下，一个已经在大规模数据上训练过的模型可以提供一个好的参数初始值，这种初始化方法称为预训练初始化（Pretrained Initialization）. 预训练任务可以为监督学习或无监督学习任务. 由于无监督学习任务更容易获取大规模的训练数据，因此被广泛采用. 预训练模型在目标任务上的学习过程也称为精调（Fine-tuning）.

（2）随机初始化

在线性模型的训练（比如感知器和 Logistic 回归）中，我们一般将参数全部初始化为0. 但是这在神经网络的训练中会存在一些问题. 因为如果参数都为0，在第一遍前向计算时，所有的隐层神经元的激活值都相同. 在反向传播时，所有权重的更新也都相同. 这样会导致隐层神经元没有区分性. 这种现象也称为对称权重现象. 为了打破这个平衡，比较好的方式是对每个参数都随机初始化（Random Initialization），这样使得不同神经元之间的区分性更好

常用的随机初始化方法有什么？

基于固定方差的参数初始化

一种最简单的随机初始化方法是从一个固定均值（通常为 0）和方差 2 的分布中采样来生成参数的初始值主要有以下两种：

（1）高斯分布初始化：使用一个高斯分布(0, 2 )对每个参数进行随机初始化.

（2）均匀分布初始化：在一个给定的区间[−, ]内采用均匀分布来初始化参数. 假设随机变量在区间[, ]内均匀分布，则其方差为

$\operatorname{var}(x)=\frac{(b-a)^{2}}{12}$

因此，若使用区间为 [−, ] 的均分分布来采样，并满足 var() = 2 时，则的取值为 $r=\sqrt{3\sigma ^2}$

在基于固定方差的随机初始化方法中，比较关键的是如何设置方差 2 . 如果参数范围取的太小，一是会导致神经元的输出过小，经过多层之后信号就慢慢消失了；二是还会使得 Sigmoid 型激活函数丢失非线性的能力

基于方差缩放的参数初始化

要高效地训练神经网络，给参数选取一个合适的随机初始化区间是非常重要的. 一般而言，参数初始化的区间应该根据神经元的性质进行差异化的设置. 如果一个神经元的输入连接很多，它的每个输入连接上的权重就应该小一些，以避免神经元的输出过大（当激活函数为 ReLU 时）或过饱和（当激活函数为 Sigmoid函数时）.

初始化一个深度网络时，为了缓解梯度消失或爆炸问题，我们尽可能保持每个神经元的输入和输出的方差一致，根据神经元的连接数量进行自适应的调整初始化分布的方差，这类方法称为方差缩放（Variance Scaling）

<1>Xavier初始化: Xavier初始化激活函数适用于恒等函数、 Logistic 函数和 Tanh 函数

<2> He初始化：适用于ReLU 激活函数

（3）固定值初始化

对于一些特殊的参数，我们可以根据经验用一个特殊的固定值来进行初始化. 比如偏置（Bias）通常用0来初始化，但是有时可以设置某些经验值以提高优化效率. 在 LSTM 网络的遗忘门中，偏置通常初始化为1或2，使得时序上的梯度变大. 对于使用ReLU的神经元，有时也可以将偏置设为0.01，使得ReLU神经元在训练初期更容易激活，从而获得一定的梯度来进行误差反向传播.

（4）正交初始化

上面介绍的两种基于方差的初始化方法都是对权重矩阵中的每个参数进行独立采样. 由于采样的随机性，采样出来的权重矩阵依然可能存在梯度消失或梯度爆炸问题.

因此，一种更加直接的方式是将 () 初始化为正交矩阵，即 ()(()) T = ，这种方法称为正交初始化（Orthogonal Initialization）

正交初始化的具体实现过程可以分为两步：首先，用均值为 0、方差为 1的高斯分布初始化一个矩阵；其次，将这个矩阵用奇异值分解得到两个正交矩阵，并使用其中之一作为权重矩阵.

7. 数据归一化必要性及方法是什么

（1）为什么要进行数据预处理

一般而言，样本的原始特征中的每一维特征由于来源以及度量单位不同，其特征取值的分布范围往往差异很大. 当我们计算不同样本之间的欧氏距离时，取值范围大的特征会起到主导作用. 这样，对于基于相似度比较的机器学习方法（比如最近邻分类器），必须先对样本进行预处理，将各个维度的特征归一化到同一个取值区间，并且消除不同特征之间的相关性，才能获得比较理想的结果.
除了参数初始化之外，不同输入特征的取值范围差异比较大时，梯度下降法的效率也会受到影响. 下图给出了数据归一化对梯度的影响. 其中，图a为未归一化数据的等高线图. 取值范围不同会造成在大多数位置上的梯度方向并不是最优的搜索方向. 当使用梯度下降法寻求最优解时，会导致需要很多次迭代才能收敛. 如果我们把数据归一化为取值范围相同，如图b所示，大部分位置的梯度方向近似于最优搜索方向. 这样，在梯度下降求解时，每一步梯度的方向都基本指向最小值，训练效率会大大提高

（2）常用的归一化方法有什么

1）缩放归一化

缩放归一化是一种非常简单的归一化方法，通过缩放将每一个特征的取值范围归一到 [0, 1] 或 [−1, 1] 之间. 假设有个样本 ${\left \{x^{n}\right \}_{n=1}^{N}}$ 对于每一维特征，

$\hat{x}^{(n)}=\frac{x^{(n)}-min_{n}(x^{(n)})}{max_n(x^{(n)}))-min_n(x^{(n)})}$

其中min()和max()分别是特征在所有样本上的最小值和最大值

2）标准归一化

标准归一化也叫 z-score 归一化，来源于统计上的标准分数. 将每一个维特征都调整为均值为0，方差为1. 假设有个样本 ${\left \{x^{n}\right \}_{n=1}^{N}}$ ，对于每一维特征，我们先计算它的均值和方差：

$\mu =\frac{1}{N}\sum_{n=1}^{N}x^{(n)}$

$\sigma ^{2} =\frac{1}{N}\sum_{n=1}^{N}(x^{(n)}-\mu )^{2}$

然后，将特征 () 减去均值，并除以标准差，得到新的特征值 $\hat{x}$

$\hat{x}^{(n)}=\frac{x^{(n)}-\mu }{\sigma }$

这里不能为0. 如果方差为0，说明这一维特征没有任务区分性，可以直接删掉

3）白化

白化（Whitening）是一种重要的预处理方法，用来降低输入数据特征之间的冗余性. 输入数据经过白化处理后，特征之间相关性较低，并且所有特征具有相同的方差

白化的一个主要实现方式是使用主成分分析（Principal Component Analysis，PCA）方法去除掉各个成分之间的相关性

标准归一化和PCA白化的比较如下图所示

4）批量归一化

批量归一化（Batch Normalization，BN）方法是一种有效的逐层归一化方法，可以对神经网络中任意的中间层进行归一化操作

对于一个深度神经网络，令第层的净输入为 ()，神经元的输出为 ()，即

$\alpha ^{l}=f(z^{(l)})=f(W\alpha^{(l-1)}+b)$

其中(⋅)是激活函数，和是可学习的参数.

为了减少内部协变量偏移问题，就要使得净输入 () 的分布一致，比如都归一化到标准正态分布. 虽然归一化操作可以应用在输入 $\alpha^{(l-1)}$ 上，但其分布性质不如 () 稳定. 因此，在实践中归一化操作一般应用在仿射变换之后，激活函数之前.

为了提高归一化效率，一般使用标准归一化，将净输入 () 的每一维都归一到标准正态分布.

$\hat{z}^{(l)}=\frac{z^{(l)}-E[z^{(l)}]}{\sqrt{var(z^{(l)})+\varepsilon }}$

其中 $E[z^{(l)}]$ 和 $var(z^{(l)})$ 是指当前参数下， () 的每一维在整个训练集上的期望和方差

批量归一化操作可以看作是一个特殊的神经层，加在每一层非线性激活函数之前，即

$\alpha ^{(l)}=f(BN_{\gamma ,\beta }(z^{(l)}))=f(BN_{\gamma ,\beta }(W\alpha^{(l-1)}))$

其中因为批量归一化本身具有平移变换，所以仿射变换 $W\alpha^{(l-1)}$ 不再需要偏置参数.

批量归一化是对一个中间层的单个神经元进行归一化操作，因此要求小批量样本的数量不能太小，否则难以计算单个神经元的统计信息. 此外，如果一个神经元的净输入的分布在神经网络中是动态变化的，比如循环神经网络，那么就无法应用批量归一化操作.

5）层归一化

层归一化（Layer Normalization）是和批量归一化非常类似的方法. 和批量归一化不同的是，层归一化是对一个中间层的所有神经元进行归一化.

层归一化定义为

$\hat{z}^{(l)}=\frac{z^{(l)}-\mu ^{(l)}}{\sqrt{\sigma^{(l)^{2}}+\varepsilon }}\odot \gamma+\beta$

其中和分别代表缩放和平移的参数向量，和 () 维数相同

层归一化和批量归一化整体上是十分类似的，差别在于归一化的方法不同. 对于个样本的一个小批量集合 $Z^{(l)}=[z^{(1,l)};...;z^{(K,l)}]$ ，层归一化是对矩阵 () 的每一列进行归一化，而批量归一化是对每一行进行归一化. 一般而言，批量归一化是一种更好的选择. 当小批量样本数量比较小时，可以选择层归一化

6）权重归一化

权重归一化（Weight Normalization）是对神经网络的连接权重进行归一化，通过再参数化（Reparameterization）方法，将连接权重分解为长度和方向两种参数

由于在神经网络中权重经常是共享的，权重数量往往比神经元数量要少，因此权重归一化的开销会比较小.

8. 超参数优化

（1）常见的超参数有哪几类？

1）网络结构，包括神经元之间的连接关系、层数、每层的神经元数量、激活函数的类型等.

2）优化参数，包括优化方法、学习率、小批量的样本数量等.

3）正则化系数

（2）超参数优化难点是什么？

超参数优化（Hyperparameter Optimization）主要存在两方面的困难:

1）超参数优化是一个组合优化问题，无法像一般参数那样通过梯度下降方法来优化，也没有一种通用有效的优化方法.

2）评估一组超参数配置（Configuration）的时间代价非常高，从而导致一些优化方法（比如演化算法（Evolution Algorithm））在超参数优化中难以应用

（3）超参数优化方法有什么？

网格搜索

网格搜索（Grid Search）是一种通过尝试所有超参数的组合来寻址合适一组超参数配置的方法. 假设总共有个超参数，第个超参数的可以取个值. 那么总共的配置组合数量为1 × 2 × ⋯ × . 如果超参数是连续的，可以将超参数离散化

一般而言，对于连续的超参数，我们不能按等间隔的方式进行离散化，需要根据超参数自身的特点进行离散化.

网格搜索根据这些超参数的不同组合分别训练一个模型，然后测试这些模型在开发集上的性能，选取一组性能最好的配置

随机搜索

不同超参数对模型性能的影响有很大差异. 有些超参数（比如正则化系数）对模型性能的影响有限，而另一些超参数（比如学习率）对模型性能影响比较大. 在这种情况下，采用网格搜索会在不重要的超参数上进行不必要的尝试.

比较有效的改进方法是对超参数进行随机组合，然后选取一个性能最好的配置，这就是随机搜索（Random Search）随机搜索在实践中更容易实现，一般会比网格搜索更加有效

网格搜索和随机搜索都没有利用不同超参数组合之间的相关性，即如果模型的超参数组合比较类似，其模型性能也是比较接近的. 因此这两种搜索方式一般都比较低效.

贝叶斯优化

贝叶斯优化（Bayesian optimization）是一种自适应的超参数优化方法，根据当前已经试验的超参数组合，来预测下一个可能带来最大收益的组合

一种比较常用的贝叶斯优化方法为时序模型优化（Sequential Model-Based Optimization，SMBO）

时序模型优化方法如算法所示

贝叶斯优化的一个缺点是高斯过程建模需要计算协方差矩阵的逆，时间复杂度是(3 )，因此不能很好地处理高维情况. 深度神经网络的超参数一般比较多，为了使用贝叶斯优化来搜索神经网络的超参数，需要一些更高效的高斯过程建模. 也有一些方法可以将时间复杂度从(3 )降低到()

动态资源分配

动态资源分配的关键是将有限的资源分配给更有可能带来收益的超参数组合. 一种有效方法是逐次减半（Successive Halving）方法

9. 数据增强方法有什么

在数据量有限的情况下，可以通过数据增强（Data Augmentation）来增加数据量，提高模型鲁棒性，避免过拟合. 目前，数据增强还主要应用在图像数据上，在文本等其他类型的数据上还没有太好的方法

图像数据的增强主要是通过算法对图像进行转变，引入噪声等方法来增加数据的多样性. 增强的方法主要有几种：

（1）旋转（Rotation）：将图像按顺时针或逆时针方向随机旋转一定角度.

（2）翻转（Flip）：将图像沿水平或垂直方法随机翻转一定角度.

（3）缩放（Zoom In/Out）：将图像放大或缩小一定比例.

（4）平移（Shift）：将图像沿水平或垂直方法平移一定步长.

（5）加噪声（Noise）：加入随机噪声.

你可能感兴趣的:(Deep,learning,python,深度学习,网络优化)

lesson18：Python函数的闭包与装饰器（难）你的电影很有趣 python 开发语言
目录引言闭包：函数式编程的"状态容器"一、闭包的本质与定义二、闭包的三大形成条件三、闭包的工作原理：变量的“持久化”四、闭包的核心应用场景五、闭包的注意事项六、闭包与装饰器的关系装饰器：基于闭包的功能增强工具一.装饰器的定义与作用二.装饰器的实现原理（基于闭包）三、装饰器进阶：灵活扩展功能1.带参数的装饰器2.保留函数元信息3.类装饰器与装饰器嵌套四、装饰器实战案例案例一：时间开销计算（性能监控）
Python 模块化编程全解析：模块、包与第三方库管理指南 xw3373409564 java 前端数据库
模块与包模块化编程是什么？用生活例子秒懂想象你在搭乐高积木：每个小积木块都有特定功能（比如轮子、窗户、墙壁）——这就像模块（一个.py文件，封装了函数或类）。把相关的积木块装进一个盒子里，方便分类和取用——这就像包（一个文件夹，里面装多个模块和子包，带__init__.py标识）。模块化编程的核心思想是：把复杂代码拆成小而独立的"积木"，需要时直接拿来用，不用重复造轮子。1.模块的概念模块就是一个
leetcode 搜索二维矩阵 II python 四分法 DaydayHoliday
利用矩阵左上角元素总是最小，右下角总是最大的特性，将矩阵分成四部分，分别递归。请各位大佬多多提意见。classSolution(object):defsearchMatrix(self,matrix,target):""":typematrix:List[List[int]]:typetarget:int:rtype:bool"""row_num=len(matrix)ifrow_num==0:r
python 类实例_Python类的实例详解 weixin_39997173 python 类实例
类(class)是一个用户自定义类型，开发者可以将其实例化以获得实例（instance），实例表示这种类型的对象。在Python中，类就是对象，开发者可以像对其他对象那样处理函数，可以在调用函数时传递一个类作为参数，也可以返回一个类作为函数调用的结果。任何对象，即使是一个类对象，都有一个类型。在Python中，类型和类也都是第一类对象。类对象的类型也被称为该类的元类（metaclass）。对象的行
python的signal weixin_33690963 python
今天在使用python的signal时，发现第二个传的函数必须是拥有两个函数参数变量的1importsignal2importtime3flag=True4deffunc1(a,b):5print"recieveSIGTERM"6globalflag7print"flag%s"%flag8flag=False9print"flag%s"%flag101112defmain():13signal.s
python字符串前面加字母_Python基础字符串前加u,r,b,f含义果呀哎呀妈呀哦呀 python字符串前面加字母
1、字符串前加u例：u"我是含有中文字符组成的字符串。"作用：后面字符串以Unicode格式进行编码，一般用在中文字符串前面，防止因为源码储存格式问题，导致再次使用时出现乱码。2、字符串前加r例：r"\n\n\n\n”#表示一个普通生字符串\n\n\n\n，而不表示换行了。作用：去掉反斜杠的转移机制。(特殊字符：即那些，反斜杠加上对应字母，表示对应的特殊含义的，比如最常见的”\n”表示换行，”\t
Python 轻量化环境管理利器 UV 入门与 Windows 下安装实战 wangjinjin180 python uv windows
https://www.52runoob.com/index.php/2025/06/19/python-轻量化环境管理利器-uv-入门与-windows-下安装实战/Python轻量化环境管理利器UV入门与Windows下安装实战一、什么是UV（UnikernelVirtualization）UV是一种轻量化的虚拟化技术，能够将应用程序与操作系统内核打包为一个单一的运行镜像，极大减少系统资源占用
JSON全面解析：轻量级数据交换的核心技术新人码农11111 json python
目录JSON的本质特征⚙️序列化：数据到字符串的转换反序列化：字符串到数据的还原实际应用场景⚠️常见陷阱与解决方案最佳实践建议在当今数据驱动的时代，JSON（JavaScriptObjectNotation）已成为最流行的轻量级数据交换格式。本文将深入剖析JSON的核心特性及其在Python中的应用，帮助开发者高效处理数据序列化与反序列化。JSON的本质特征JSON采用纯文本格式，具有跨平台、易读
React-Python项目安装与使用指南
React-Python项目安装与使用指南一、项目目录结构及介绍通常情况下，在克隆了https://github.com/facebookarchive/react-python.git仓库之后，你会看到以下的目录结构：├──README.md#项目的说明文档├──src#源码目录│├──components#React组件存放位置│├──App.py#应用主入口文件│└──index.js#引入
AI+Python赋能！长时序植被遥感动态分析全攻略：从物候提取到生态评估梦想的初衷~ 土壤植被遥感人工智能遥感植被土壤
在遥感技术与人工智能深度融合的2025年，AI大模型正重塑长时序植被遥感数据分析范式。从Landsat/Sentinel卫星数据的智能化去云处理，到MODIS植被产品的AI辅助质量控制，以ChatGPT、DeepSeeK为代表的大模型技术已成为提升遥感数据处理效率与精度的核心工具——尤其在长时序植被动态监测、物候期精准提取、时空变异归因分析及生态环境质量评估等领域，展现出传统方法难以企及的技术优势
Python你不知道的二三事（Python基础知识）日暮凡尘 python 开发语言
在上一篇中，我们介绍了Python解释器与编辑器的安装与使用，本次我们这是在进行Python程序的编译。我会根据我个人的学习进度进行更新，如有遗漏或错误，欢迎指正。变量与常量变量创建一个新的py文件，我们就可以开始编程了。关于变量，就是一些我们自定义的值，如a=10num=100其中a，num就是我所定义的变量，变量的命名较为自由，但也有一些规则需要遵守：1.变量由数字、字母、下划线（_）组成。n
pytest-bdd 行为驱动自动化测试东汉末年出bug pytest python pytest-bdd
引言pytest-bdd是一个专为Python设计的行为驱动开发（BDD）测试框架，它允许开发人员使用自然语言（如Gherkin）来编写测试用例，从而使测试用例更易于理解和维护。安装通过pip安装pipinstallpytest-bdd介绍特性文件（FeatureFile）：定义了要测试的系统功能。通常以.feature为扩展名，并使用Gherkin语言编写。特性文件包含特性名称、描述以及一个或多
使用Spire.Doc.Free在Python中为Word文档添加批注 Ven% python python word 批注
文章目录技术背景环境准备完整实现代码功能说明：注意事项：总结在文档协作和审阅过程中，批注是极其重要的功能。本文将详细介绍如何使用Python的Spire.Doc.Free库为Word文档添加批注，并提供一个完整的解决方案。技术背景Spire.Doc.Free是一个功能强大且免费的Python库，用于处理Word文档。虽然免费版本有一些限制（如文档处理页数限制等），但它提供了丰富的API用于文档操作
深入TA-Lib：量化技术指标详解
深入TA-Lib：量化技术指标详解本文系统讲解TA-Lib技术指标分析，涵盖基础、数据处理、趋势与动量指标、均量线、布林线等，并结合Python代码与大数据、机器学习实战案例，助力读者掌握量化交易实战技巧。本文系统梳理了TA-Lib技术指标分析的核心内容，包括TA-Lib基础、数据处理、趋势与动量指标、均量线、布林线等关键技术指标分析方法，并结合Python代码示例与大数据、机器学习的融合实战案例
天文图像处理：星系分类与天体定位 xcLeigh 计算机视觉CV 图像处理分类人工智能 AI 计算机视觉
天文图像处理：星系分类与天体定位一、前言二、天文图像处理基础2.1天文图像的获取2.2天文图像的格式2.3天文图像处理的基本流程三、天文图像预处理3.1去噪处理3.2平场校正3.3偏置校正四、星系分类4.1星系的分类体系4.2基于特征提取的星系分类方法4.3基于深度学习的星系分类方法五、天体定位5.1天体坐标系统5.2基于星图匹配的天体定位方法5.3基于深度学习的天体定位方法六、总结与展望致读者一
【python做接口测试的学习记录day6——pytest+yaml+allure自动化测试框架之URL拼接】小丫么小二郎~ 学习 pytest python 功能测试测试工具
在之前的测试框架中，可以发现的是，我们的yaml数据中所有的url中的除了路径不同外，其余都是相同的，我们想办法将这一部分自动化，这样的yaml中写用例url的时候就不用再每次都写上域名，只需要输入路径即可首先我们需要更改下之前的用例yaml文件中的url，将域名删除只留下路径即可，例如：接下来我们在根目录创建一个config.yam文件，用于存储我们的URL中的公共部分，这里由于公司相关，我隐藏
【python做接口测试的学习记录day9——pytest自动化测试框架之yaml数据驱动封装】小丫么小二郎~ pytest python pycharm 接口测试用例
之前我们的框架中，如果有多个测试用例，则需要在yaml文件中写入多个用例，而每个用例可能不同的仅仅只是个别参数值，这就导致很多重复代码，现在我们使用数据驱动就可以解决这个问题了。我依旧采用之前的登录接口为例，简单记录一下数据驱动封装的全过程一、DDT数据驱动yaml文件在根目录下创建包datas，用来存放我们的数据驱动yaml文件，在datas下新建一个get_token_data.yaml文件，
深度学习——CNN（3）飘涯
前言：前面介绍了最基本的Lenet，下面介绍几种其他的网络结构CNN-AlexNet网络结构如下图：从图中可以看出，采用双gpu训练增加LRN归一化层：本质上，这个层也是为了防止激活函数的饱和的。采用dropout防止过拟合基于AlexNet进行微调，诞生了ZF-netCNN-GoogleNetGoogLeNet借鉴了NIN的特性，在原先的卷积过程中附加了11的卷积核加上ReLU激活。这不仅仅提升
AI 人工智能与 Copilot 碰撞出的火花 AI天才研究院 AI大模型企业级应用开发实战人工智能 copilot ai
AI人工智能与Copilot碰撞出的火花关键词：AI人工智能、Copilot、代码辅助、智能编程、人机协作、软件开发、技术创新摘要：本文深入探讨了AI人工智能与Copilot碰撞所产生的一系列效应。首先介绍了相关背景，包括目的、预期读者、文档结构和术语表。接着阐述了核心概念与联系，展示了其原理和架构的示意图及流程图。详细讲解了核心算法原理和具体操作步骤，并通过Python代码进行说明。同时给出了数
毕业设计基于python + flask +mysql + Layui新闻系统项目源码 love0everything flask python 课程设计
毕业设计基于python+flask+mysql+Layui新闻系统项目源码介绍该项目采用Flask框架开发，数据库采用mysql。这是一个作业项目。该项目采用Flask框架开发的一个新闻、论坛、博客系统。。前端采用的是layui框架，后端模板是X-admin下载地址：毕业设计基于python+flask+mysql+Layui新闻系统项目源码模块版本PyMysql1.0.2Flask1.1.2M
测试学习之——Pytest Day3 别在内卷了测试学习 pytest python
引言Pytest作为Python中最受欢迎的测试框架之一，以其简洁的语法、强大的功能和丰富的插件生态系统，极大地提升了自动化测试的效率和可维护性。在本文中，我们将深入探讨Pytest的两大核心特性：Fixture和插件管理，帮助您更高效地编写和管理您的测试用例。一、夹具fixtureFixture是Pytest中一个非常强大的特性，它允许您定义在测试用例执行之前或之后自动运行的代码。这对于设置测试
#Datawhale组队学习#7月-强化学习Task1 fzyz123 Datawhale组队学习强化学习人工智能 AI
这里是Datawhale组织的组队学习《强化学习入门202507》，Datawhale是一个开源的社区。第一章绪论1.1为什么要学习强化学习？强化学习（ReinforcementLearning,RL）是机器学习中专注于智能体（Agent）如何通过与环境交互学习最优决策策略的分支。与监督学习依赖静态数据集、无监督学习聚焦数据内在结构不同，强化学习的核心在于序贯决策：智能体通过试错探索环境，根据行动
微算法科技技术突破：用于前馈神经网络的量子算法技术助力神经网络变革 MicroTech2025 量子计算算法神经网络
随着量子计算和机器学习的迅猛发展，企业界正逐步迈向融合这两大领域的新时代。在这一背景下，微算法科技（NASDAQ:MLGO）成功研发出一套用于前馈神经网络的量子算法，突破了传统神经网络在训练和评估中的性能瓶颈。这一创新性的量子算法以经典的前馈和反向传播算法为基础，借助量子计算的强大算力，极大提升了网络训练和评估效率，并带来了对过拟合的天然抗性。前馈神经网络是深度学习的核心架构，广泛应用于图像分类、
图机器学习（13）——图相似性检测
图机器学习（13）——图相似性检测0.前言1.基于图嵌入的方法2.基于图核的方法3.基于GNN的方法4.应用0.前言图机器学习(machinelearning,ML)方法能广泛应用于各类任务，其应用场景涵盖从药物设计到社交网络推荐系统等多个领域。值得注意的是，由于这类方法在设计上具有通用性，同一算法可用于解决不同问题。学习图之间相似性的定量度量是一个关键问题。事实上，这是网络分析的重要步骤，同时也
linux安装Node.js 环境，Docker 环境，Ruby 环境，MongoDB 环境，PostgreSQL 数据库，Go 开发环境，Python 虚拟环境 2401_87017622 数据库 linux node.js
在Linux上安装其他常见的开发环境可以根据具体需求而定，以下是一些常见的安装步骤：1.Node.js环境Node.js是一个基于ChromeV8引擎的JavaScript运行环境，适用于服务器端开发。安装Node.js：通过包管理器安装：sudoyuminstall-ygcc-c++makecurl-sLhttps://rpm.nodesource.com/setup_14.x|sudo-Eba
Mac 下 python 安装 virtualenv 出错 stay_f_h
如果是安装了anaconda的机器，直接用pipinstallvirtualenv可能会由于版本的问题出错，建议使用sudocondainstallvirtualenv安装。
Python 数据分析与可视化：从基础到进阶的技术实现与优化策略女码农的重启 python 数据分析开发语言
数据分析与可视化是数据科学领域的核心技能，Python凭借其丰富的库生态和灵活的编程范式，成为该领域的首选工具。本文将系统讲解Python数据分析与可视化的技术栈实现，从基础操作到性能优化，结合实战场景提供可复用的解决方案。数据分析核心库技术解析Pandas数据处理引擎原理Pandas作为数据分析的基石，其核心优势在于基于NumPy的矢量运算和高效的内存管理。与Excel的单元格级操作不同，Pan
Python 字典(dict)和集合(set)新手指南
一、字典(dict)基础什么是字典？字典就像现实中的字典一样，通过"键(key)"快速查找对应的"值(value)"。#创建字典student_scores={"小明":90,"小红":85,"小刚":92}#查找成绩print(student_scores["小明"])#输出:90为什么字典查找快？字典使用哈希表实现，查找速度是O(1)级别，不会随着数据量增加而变慢。二、字典常用操作1.添加/修
Python函数参数`*args`和`**kwargs`详解：区别与使用指南北辰alk python python 服务器数据库
文章目录一、基本概念与区别概述1.1`*args`（非关键字参数收集）1.2`**kwargs`（关键字参数收集）1.3主要区别对比表二、深入理解`*args`2.1基本用法2.2工作原理2.3与其他参数配合使用2.4解包序列作为参数三、深入理解`**kwargs`3.1基本用法3.2工作原理3.3与其他参数配合使用3.4解包字典作为参数四、组合使用`*args`和`**kwargs`4.1完整参
【Leetcode】3201. 找出有效子序列的最大长度 I 想要AC的dly 练习题(记录做题想法)leetcode 算法职场和发展
文章目录题目题目描述示例提示思路分析核心观察有效子序列的四种模式算法思路代码实现Java版本C++版本Python版本优化版本复杂度分析时间复杂度空间复杂度示例验证总结题目题目链接题目描述给你一个整数数组nums。nums的子序列sub的长度为x，如果其满足以下条件，则称其为有效子序列：(sub[0]+sub[1])%2==(sub[1]+sub[2])%2==...==(sub[x-2]+sub
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

【九问九答】你真的会优化网络吗？

1. 神经网络有什么难点问题？

2. 训练神经网络时常用的优化算法有什么？

（1）小批量梯度下降（Mini-Batch Gradient Descent）.

为什么要使用小批量梯度下降法？

影响小批量梯度下降法的主要因素有什么？

3. 学习率详细介绍

（1）学习率衰减是什么

（2）学习率衰减方法有什么

（3）学习率预热是什么

（4）自适应调整学习率的方法有什么

AdaGrad算法

RMSprop算法

AdaDelta算法

4. 梯度估计修正方法有什么

1）动量法

2）Nesterov加速梯度

3）Adam算法

4）梯度截断

5. 优化算法汇总与比较

6. 参数初始化的方法有什么

（1） 预训练初始化

（2） 随机初始化

常用的随机初始化方法有什么？

（3） 固定值初始化

（4）正交初始化

7. 数据归一化必要性及方法是什么

（1）为什么要进行数据预处理

（2）常用的归一化方法有什么

1）缩放归一化

2）标准归一化

3）白化

4）批量归一化

5）层归一化

6）权重归一化

8. 超参数优化

（1）常见的超参数有哪几类？

（2）超参数优化难点是什么？

（3）超参数优化方法有什么？

9. 数据增强方法有什么

你可能感兴趣的:(Deep,learning,python,深度学习,网络优化)

（1）预训练初始化

（2）随机初始化

（3）固定值初始化