绝对是谨慎提交的昵称

深度学习4：网络优化Network Optimization（基于Python MXNet.Gluon框架）

网络优化

- 应用中的两类难点问题
- 网络优化
- - 优化算法
  - - 小批量梯度下降
    - - 批量大小 $K$ 的选择
      - 学习率 $\alpha$ 的调整
      - 学习率衰减
        
        学习率预热
        
        周期性学习率调整
        
        AdaGrad 算法
        
        RMSprop 算法
        
        AdaDelta 算法
      - 梯度估计修正
      - 动量法
        
        Nesterov 加速梯度
        
        Adam 算法
        
        梯度截断
      - 优化算法小结
- 参数初始化
- - Xavier 初始化
  - He 初始化
- 数据预处理
- - 缩放归一化
  - 标准归一化
  - 白化
- 逐层归一化
- - 批量归一化
  - 层归一化
  - 权重归一化
  - 局部响应归一化
- 部分优化方法代码
- - 批量归一化
  - - 丢弃法
    - 权重衰减
  - Adam法
- 参考资料

应用中的两类难点问题

优化问题：神经网络模型是一个非凸函数，再加上在深度网络中的梯度消失问题，很难进行优化；另外，深度神经网络模型一般参数比较多，训练数据也比较大，会导致训练的效率比较低；
泛化问题：因为神经网络的拟合能力强，反而容易在训练集上产生过拟合。因此在训练深度神经网络时，同时也需要通过一定的正则化方法来改进网络的泛化能力。

网络优化

深度神经网络是一个高度非线性的模型，其风险函数是一个非凸函数，因此风险最小化是一个非凸优化问题，会存在很多局部最优点。

有效地学习深度神经网络的参数是一个具有挑战性的问题，其主要原因有以下几个方面：

网络结构多样性

神经网络的种类非常多，比如卷积网络、循环网络等，其结构也非常不同。有些比较深，有些比较宽。不同参数在网络中的作用也有很大的差异，比如连接权重和偏置的不同，以及循环网络中循环连接上的权重和其它权重的不同。

由于网络结构的多样性，我们很难找到一种通用的优化方法。不同的优化方法在不同网络结构上的差异也都比较大。

此外，网络的超参数一般也比较多，这也给优化带来很大的挑战。

高维变量的非凸优化

低维空间的非凸优化问题主要是存在一些局部最优点。基于梯度下降的优化方法会陷入局部最优点，因此低维空间非凸优化的主要难点是如何选择初始化参数和逃离局部最优点。

在高维空间中，非凸优化的难点并不在于如何逃离局部最优点，而是如何逃离鞍点（SaddlePoint）。鞍点的梯度是0，但是在一些维度上是最高点，在另一些维度上是最低点，如图所示。

深度学习4：网络优化Network Optimization（基于Python MXNet.Gluon框架）_第1张图片

在高维空间中，局部最优点要求在每一维度上都是最低点，这种概率非常低。假设网络有 10,000 维参数，一个点在某一维上是局部最低点的概率为 $p$ ，那么在整个参数空间中，局部最优点的概率为 $p^{10,000}$ ，这种可能性非常小。也就是说高维空间中，大部分梯度为 0 的点都是鞍点。基于梯度下降的优化方法会在鞍点附近接近于停滞，同样很难从这些鞍点中逃离。

深度神经网络的参数非常多，并且有一定的冗余性，这使得每单个参数对最终损失的影响都比较小，这导致了损失函数在局部最优点附近是一个平坦的区域，称为平坦最小值（Flat Minima）。并且在非常大的神经网络中，大部分的局部最小值是相等的。虽然神经网络有一定概率收敛于比较差的局部最小值，但随着网络规模增加，网络陷入局部最小值的概率大大降低。下图给出了一种简单的平坦底部示例。

优化算法

目前，深度神经网络的参数学习主要是通过梯度下降法来寻找一组可以最小化结构风险的参数。在具体实现中，梯度下降法可以分为：批量梯度下降、随机梯度下降以及小批量梯度下降三种形式。根据不同的数据量和参数量，可以选择一种具体的实现形式。除了在收敛效果和效率上的差异，这三种方法都存在一些共同的问题，比如：

如何改进优化算法；
如何初始化参数；
如何预处理数据等。

小批量梯度下降

在训练深度神经网络时，训练数据的规模通常都比较大。如果在梯度下降时，每次迭代都要计算整个训练数据上的梯度，这就需要比较多的计算资源。另外大规模训练集中的数据通常会非常冗余，也没有必要在整个训练集上计算梯度。因此，在训练深度神经网络时，经常使用小批量梯度下降法（Mini-Batch Gradient Descent）。

令 $f(\textbf{x}; \theta)$ 表示一个深度神经网络， $\theta$ 为网络参数，在使用小批量梯度下降进行优化时，每次选取 $K$ 个训练样本 $\mathcal{S}_t=\{(\textbf{x}^{(k)},\textbf{y}^{(k)})\}_{k=1}^K$ 。第 $t$ 次迭代（Iteration）时损失函数关于参数 $\theta$ 的偏导数为

$\mathscr{G}_t(\theta)=\frac{1}{K}\sum_{(\textbf{x},\textbf{y})\in\mathcal{S}_t}\frac{\partial{\mathcal{L(\textbf{y},f(\textbf{x}; \theta))}}}{\partial{\theta}}$

其中 $\mathcal{L}(\cdot)$ 可微分的损失函数， $K$ 称为批量大小（Batch Size）。

第 $t$ 次更新的梯度 $g_t$ 定义为

$g_t=\mathscr{G}_t(\theta_{t-1})$

使用梯度下降来更新参数，

$\theta_t\leftarrow\theta_{t-1}-\alpha g_t$

其中 $\alpha>0$ 为学习率。

每次迭代时参数更新的差值 $\Delta\theta_t$ 定义为

$\Delta\theta_t=\theta_t-\theta_{t-1}$

$\Delta\theta_t$ 和 $g_t$ 不需要完全一致。 $\Delta\theta_t$ 为每次迭代时参数的实际更新方向，即 $\theta_t=\theta_{t-1}+\Delta\theta_t$ 。

在标准的小批量梯度下降中， $\Delta\theta_t=-\alpha g_t$ .

从上面公式可以看出，影响小批量梯度下降法的主要因素有：（1）批量大小 $K$ 、（2）学习率 $\alpha$ 以及（3）梯度估计。

为了更有效地训练深度神经网络，在标准的小批量梯度下降法的基础上，也经常使用一些改进方法以加快优化速度，比如如何选择批量大小、如何调整学习率以及如何修正梯度估计。我们分别从这三个方面来介绍在神经网络优化中常用的算法。这些改进的优化算法也同样可以应用在批量或随机梯度下降法上。

批量大小 $K$ 的选择

在小批量梯度下降法中，批量大小（Batch Size）对网络优化的影响也非常大。

一般而言，批量大小不影响随机梯度的期望，但是会影响随机梯度的方差。

批量大小和学习率设置的关系
批量大小越大	批量大小越小
随机梯度的方差越小，引入的噪声也越小，训练也越稳定
因此可以设置较大的学习率	需要设置较小的学习率，否则模型会不收敛

学习率 $\alpha$ 通常要随着批量大小的 $K$ 增大而相应地增大。一个简单有效的方法是线性缩放规则（Linear Scaling Rule）：当批量大小增加 $m$ 倍时，学习率也增加 $m$ 倍。线性缩放规则往往在批量大小比较小时适用，当批量大小非常大时，线性缩放会使得训练不稳定。

下图给出了从 Epoch（回合）和 Iteration（单次更新）的角度，批量大小对损失下降的影响。每一次小批量更新为一次 Iteration，所有训练集的样本更新一遍为一次 Epoch，两者的关系为 1 个 Epoch 等于 $\frac{训练样本的数量N}{批量大小K}$ 次 Iterations。

深度学习4：网络优化Network Optimization（基于Python MXNet.Gluon框架）_第2张图片

从第一张图可以看出，批量大小越大，下降效果越明显，并且下降曲线越平滑。但从第二张图可以看出，如果按整个数据集上的回合（Epoch）数来看，则是批量样本数越小，适当小的批量大小会导致更快的收敛。

学习率 $\alpha$ 的调整

学习率是神经网络优化时的重要超参数。在梯度下降法中，学习率 $\alpha$ 的取值非常关键，如果过大就不会收敛，如果过小则收敛速度太慢。

常用的学习率调整方法包括学习率衰减、学习率预热、周期性学习率调整以及一些自适应调整学习率的方法，比如 AdaGrad、RMSprop、AdaDelta 等。自适应学习率方法可以针对每个参数设置不同的学习率。

学习率衰减

从经验上看，学习率在一开始要保持大些来保证收敛速度，在收敛到最优点附近时要小些以避免来回振荡。比较简单的学习率调整可以通过学习率衰减（Learning Rate Decay）的方式来实现，也称为学习率退火（Learning Rate Annealing）。

不失一般性，这里的衰减方式设置为按迭代次数进行衰减。假设初始化学习率为 $\alpha_0$ ，在第 $t$ 次迭代时的学习率 $\alpha_t$ 。常见的衰减方法有以下几种：

分段常数衰减（Piecewise Constant Decay）：即每经过 $T_1,T_2,\cdots,T_m$ 次迭代将学习率衰减为原来的 $\beta_1,\beta_2,\cdots,\beta_m$ 倍，其中 $T_m$ 和 $\beta_m<1$ 为根据经验设置的超参数。分段常数衰减也称为阶梯衰减（Step Decay）。

逆时衰减（Inverse Time Decay）：

$\alpha_t=\alpha_0\frac{1}{1+\beta t}$

其中 $\beta$ 为衰减率。

指数衰减（Exponential Decay）：

$\alpha_t=\alpha_0\beta^t$

其中 $\beta<1$ 为衰减率。

自然指数衰减（Natural Exponential Decay）：

$\alpha_t=\alpha_0exp(-\beta t)$

其中 $\beta$ 为衰减率。

余弦衰减（Cosine Decay）：

$\alpha_t=\frac{1}{2}\alpha_0(1+cos(\frac{t\pi}{T}))$

其中 $T$ 为总的迭代次数。

下图给出了不同衰减方法的示例（假设初始学习率为 1）。

深度学习4：网络优化Network Optimization（基于Python MXNet.Gluon框架）_第3张图片

学习率预热

在小批量梯度下降法中，当批量大小的设置比较大时，通常需要比较大的学习率。但在刚开始训练时，由于参数是随机初始化的，梯度往往也比较大，再加上比较大的初始学习率，会使得训练不稳定。

为了提高训练稳定性，我们可以在最初几轮迭代时，采用比较小的学习率，等梯度下降到一定程度后再恢复到初始的学习率，这种方法称为学习率预热（Learning Rate Warmup）。

一个常用的学习率预热方法是逐渐预热（Gradual Warmup）。假设预热的迭代次数为 $T^{'}$ ，初始学习率为 $\alpha_0$ ，在预热过程中，每次更新的学习率为

$\alpha'_t=\frac{t}{T'}\alpha_0,1\leq t\leq T'$

当预热过程结束，再选择一种学习率衰减方法来逐渐降低学习率。

周期性学习率调整

为了使得梯度下降法能够逃离局部最小值或鞍点，一种经验性的方式是在训练过程中周期性地增大学习率。虽然增大学习率可能短期内有损网络的收敛稳定性，但从长期来看有助于找到更好的局部最优解。

一般而言，当一个模型收敛一个平坦（Flat）的局部最小值时，其鲁棒性会更好，即微小的参数变动不会剧烈影响模型能力；而当模型收敛到一个尖锐（Sharp）的局部最小值时，其鲁棒性也会比较差。

具备良好泛化能力的模型通常应该是鲁棒的，因此理想的局部最小值应该是平坦的。周期性学习率调整可以使得梯度下降法在优化过程中跳出尖锐的局部极小值，虽然会短期内会损害优化过程，但最终会收敛到更加理想的局部极小值。

下面介绍两种常用的周期性调整学习率的方法：循环学习率和带热重启的随机梯度下降。

循环学习率 一种简单的方法是使用循环学习率（Cyclic Learning Rate），即让学习率在一个区间内周期性地增大和缩小。通常可以使用线性缩放来调整学习率，称为三角循环学习率（Triangular Cyclic Learning Rate）。假设每个循环周期的长度相等都为 2Δ，其中前 Δ 步为学习率线性增大阶段，后 Δ 步为学习率线性缩小阶段。在第 $t$ 次迭代时，其所在的循环周期数 $m$ 为

$m=[1+\frac{t}{2\Delta T}]$

其中 ⌊⋅⌋ 表示“向下取整”函数。第 $t$ 次迭代的学习率为

深度学习4：网络优化Network Optimization（基于Python MXNet.Gluon框架）_第4张图片

带热重启的随机梯度下降 带热重启的随机梯度下降（Stochastic Gradient De- scent with Warm Restarts，SGDR）是用热重启方式来替代学习率衰减的方法。学习率每间隔一定周期后重新初始化为某个预先设定值，然后逐渐衰减。每次重启后模型参数不是从头开始优化，而是从重启前的参数基础上继续优化。

假设在梯度下降过程中重启 $M$ 次，第 $m$ 次重启在上次重启开始第 $T_m$ 个回合后进行， $T_m$ 称为重启周期。在第 $m$ 次重启之前，采用余弦衰减来降低学习率。第 $t$ 次迭代的学习率为

深度学习4：网络优化Network Optimization（基于Python MXNet.Gluon框架）_第5张图片

下图给出了两种周期性学习率调整的示例（假设初始学习率为 1），每个周期中学习率的上界也逐步衰减。

深度学习4：网络优化Network Optimization（基于Python MXNet.Gluon框架）_第6张图片

AdaGrad 算法

在标准的梯度下降法中，每个参数在每次迭代时都使用相同的学习率。由于每个参数的维度上收敛速度都不相同，因此根据不同参数的收敛情况分别设置学习率。

AdaGrad（Adaptive Gradient）算法是借鉴 $l_2$ 正则化的思想，每次迭代时自适应地调整每个参数的学习率。在第 $t$ 次迭代时，先计算每个参数梯度平方的累计值

深度学习4：网络优化Network Optimization（基于Python MXNet.Gluon框架）_第7张图片

在 AdaGrad 算法中，如果某个参数的偏导数累积比较大，其学习率相对较小；相反，如果其偏导数累积较小，其学习率相对较大。但整体是随着迭代次数的增加，学习率逐渐缩小。

AdaGrad 算法的缺点是在经过一定次数的迭代依然没有找到最优点时，由于这时的学习率已经非常小，很难再继续找到最优点。

RMSprop 算法

RMSprop算法是 Geoff Hinton 提出的一种自适应学习率的方法，可以在有些情况下避免 AdaGrad 算法中学习率不断单调下降以至于过早衰减的缺点。

RMSprop 算法首先计算每次迭代梯度 $\textbf{g}_t$ 平方的指数衰减移动平均，

深度学习4：网络优化Network Optimization（基于Python MXNet.Gluon框架）_第8张图片

深度学习4：网络优化Network Optimization（基于Python MXNet.Gluon框架）_第9张图片

从上式可以看出，RMSProp 算法和 AdaGrad 算法的区别在于 $G_t$ 的计算由累积方式变成了指数衰减移动平均。在迭代过程中，每个参数的学习率并不是呈衰减趋势，既可以变小也可以变大。

AdaDelta 算法

AdaDelta(算)法也是 AdaGrad 算法的一个改进。和 RM- Sprop 算法类似，AdaDelta 算法通过梯度平方的指数衰减移动平均来调整学习率。此外，AdaDelta 算法还引入了每次参数更新差值 Δ 的平方的指数衰减权移动平均。

第 $t$ 次迭代时，参数更新差值 Δ 的平方的指数衰减权移动平均为

深度学习4：网络优化Network Optimization（基于Python MXNet.Gluon框架）_第10张图片

从上式可以看出，AdaDelta 算法将 RMSprop 算法中的初始学习率 $\alpha$ 改为动态计算的 $\sqrt{\Delta X_{t-1}^2}$ ，在一定程度上平抑了学习率的波动。

梯度估计修正

除了调整学习率之外，还可以进行梯度估计（Gradient Estimation）的修正。随机梯度下降方法中每次迭代的梯度估计和整个训练集上的最优梯度并不一致，具有一定的随机性。一种有效地缓解梯度估计随机性的方式是通过使用最近一段时间内的平均梯度来代替当前时刻的随机梯度来作为参数更新的方向，从而提高优化速度。

动量法

深度学习4：网络优化Network Optimization（基于Python MXNet.Gluon框架）_第11张图片

Nesterov 加速梯度

深度学习4：网络优化Network Optimization（基于Python MXNet.Gluon框架）_第13张图片

深度学习4：网络优化Network Optimization（基于Python MXNet.Gluon框架）_第14张图片

Adam 算法

深度学习4：网络优化Network Optimization（基于Python MXNet.Gluon框架）_第15张图片

深度学习4：网络优化Network Optimization（基于Python MXNet.Gluon框架）_第16张图片

梯度截断

深度学习4：网络优化Network Optimization（基于Python MXNet.Gluon框架）_第17张图片

优化算法小结

深度学习4：网络优化Network Optimization（基于Python MXNet.Gluon框架）_第18张图片

参数初始化

神经网络训练过程中的参数学习是基于梯度下降法进行优化的。梯度下降法需要在开始训练时给每一个参数赋一个初始值。这个初始值的选取十分关键。在感知器和logistic回归的训练中，我们一般将参数全部初始化为0。但是这在神经网络的训练中会存在一些问题。因为如果参数都为 0，在第一遍前向计算时，所有的隐层神经元的激活值都相同。这样会导致深层神经元没有区分性。这种现象也称为对称权重现象。

为了打破这个平衡，比较好的方式是对每个参数都随机初始化，这样使得不同神经元之间的区分性更好。

随机初始化参数的一个问题是如何选取随机初始化的区间。如果参数取的太小，一是会导致神经元的输入过小，经过多层之后信号就慢慢消失了；二是还会使得 Sigmoid 型激活函数丢失非线性的能力。

以 Logistic 函数为例，在 0 附近基本上是近似线性的。这样多层神经网络的优势也就不存在了。如果参数取的太大，会导致输入状态过大。对于 Sigmoid 型激活函数来说，激活值变得饱和，从而导致梯度接近于 0。

经常使用的初始化方法有以下两种：

高斯分布初始化 参数从一个固定均值（比如0）和固定方差（比如0.01）的高斯分布进行随机初始化；

均匀分布初始化 在一个给定的区间[−,] 内采用均匀分布来初始化参数。超参数的设置可以按神经元的连接数量进行自适应的调整。

初始化一个深层网络时，一个比较好的初始化策略是保持每个神经元输入和输出的方差一致。介绍两种参数初始化的方法。

Xavier 初始化

Xavier初始化根据每层的神经元数量来自动计算初始化参数的方差，控制每个神经元的输入和输出的方差一致，在计算出参数的理想方差后，通过高斯分布或均匀分布来随机初始化参数。

假设第 $l$ 层的一个隐藏层神经元 $z^{(l)}$ 其接收前一层的 $M_{l-1}$ 个神经元的输出 $a_i^{(l-1)},1\leq i \leq M_{l-1}$ ，

$z^{(l)}=\sum_{i=1}^{M_{l-1}}w_i^{(l)}a_i^{(l-1)}$

其中 $w_i^{(l)}$ 为参数。为了避免初始化参数使得激活值变得饱和，我们需要尽量使得 $z^{(l)}$ 处于激活函数的线性区间，也就是其绝对值比较小的值. 这时该神经元的激活值为 $a^{(l)}=f(z^{(l)})\approx z^{(l)}$ .

假设 $w_i^{(l)}$ 与 $a_i^{(l-1)}$ 的均值都为0，且相互独立，则 $a^{(l)}$ 的均值为0， $a^{(l)}$ 的方差为

$var[a^{(l)}]=M_{l-1}var[w_i^{(l-1)}]var[a_i^{(l-1)}]$

也就是说，输入信号的方差在经过该神经元后被放大或缩小了 $M_{l-1}var[w_i^{(l-1)}]$ 倍。为了使得在经过多层网络后，信号不被过分放大或过分减弱，我们尽可能保持每个神经元的输入和输出的方差一致。这样 $M_{l-1}var[w_i^{(l-1)}]$ 设为1比较合理。即

$var[w_i^{(l-1)}]=\frac{1}{M_{l-1}}$

同理，为了使得在反向传播中，误差信号也不被放大或缩小，需要将 $w_i^{(l)}$ 的方差保持为

$var[w_i^{(l-1)}]=\frac{1}{M_l}$

作为折中，同时考虑信号在前向和反向传播中都不被放大或缩小，可以设置

$var[w_i^{(l-1)}]=\frac{2}{M_l+M_{l-1}}$

在计算出参数的理想方差后，可以通过高斯分布或均匀分布来随机初始化参数。

高斯分布初始化 当采用高斯分布来随机初始化参数时，连接权重 $w_i^{(l)}$ 可以按 $N(0,\sqrt{\frac{2}{M_l+M_{l-1}}})$ ；

均匀分布初始化 假设随机变量 $x$ 在区间 $[a, b]$ 内均匀分布，则其方差为 $var(x)=\frac{(b-a)^2}{12}$ 。因此，若采用区间为 $[- r, r]$ 的均分分布来初始化 $w_i^{(l)}$ 并满足 $var[w_i^{(l-1)}]=\frac{2}{M_l+M_{l-1}}$ ，则即均匀分布 $[-\sqrt{\frac{6}{M_l+M_{l-1}}},\sqrt{\frac{6}{M_l+M_{l-1}}}]$ 。

He 初始化

当第 $l$ 层神经元使用 ReLU 激活函数时，通常有一半的神经元输出为 0，因此其分布的方差也近似为使用 Logistic 作为激活函数时的一半。这样，只考虑前向传播时，参数 $w_i^{(l)}$ 的理想方差为

$var[w_i^{(l)}]=\frac{2}{M_{l-1}}$

其中 $M_{l-1}$ 是第 $l - 1$ 层神经元个数。

因此使用 ReLU 激活函数时，若采用高斯分布来初始化参数 $w_i^{(l)}$ ，其方差为 $\frac{2}{M_{l-1}}$ ；若采用区间为 $[- r, r]$ 的均匀分布来初始化参数 $w_i^{(l)}$ ，则 $r=\sqrt{\frac{6}{M_{l-1}}}$ 。这种方法称为 He 初始化。

数据预处理

缩放归一化

缩放归一化是一种非常简单的归一化方法，通过缩放将每一个特征的取值范围归一到 [0,1] 或 [−1,1] 之间。

标准归一化

标准归一化也叫 z-score 归一化，来源于统计上的标准分数。将每一个维特征都调整为均值为 0，方差为 1。

白化

白化（Whitening）是一种重要的预处理方法，用来降低输入数据特征之间的冗余性。输入数据经过白化处理后，特征之间相关性较低，并且所有特征具有相同的方差。白化的一个主要实现方式是使用主成分分析（Principal Component Analy- sis，PCA）方法去除掉各个成分之间的相关性。

逐层归一化

批量归一化

层归一化

权重归一化

局部响应归一化

部分优化方法代码

批量归一化

仅在get_net中所有卷积层和全连接层之后、激活层之前加入批量归一化，看看运算结果有何变化——批量归一化处理后，发现有一些过拟合问题，可尝试权重衰减和丢弃法改进。在这里，仅仅用批量归一化而导致过拟合的代码就不再赘述，我们直接从两个办法来解决出现的过拟合问题。

丢弃法

import mxnet
from mxnet import gluon, init, nd, autograd
from mxnet.gluon import data as gdata
import d2lzh as d2l
from mxnet.gluon import loss as gloss, nn
import time
import random
import numpy as np
%matplotlib inline
from IPython import display
from matplotlib import pyplot as plt
import sys

mnist_train = gdata.vision.FashionMNIST(train=True)
#mnist_test = gdata.vision.FashionMNIST(train=False)

在LeNet网络的所有卷积层和全连接层之后、激活层之前加入批量归一化，并使用丢弃法。

对每个激活函数的输出使用丢弃法。我们可以分别设置各个层的丢弃概率。通常的建议是把靠近输入层的丢弃概率设得小一点。

drop_prob1, drop_prob2, drop_prob3, drop_prob4 = 0.1, 0.1, 0.1, 0.2 # 丢弃概率
def get_net():
    net = nn.Sequential()
    net.add(nn.Conv2D(6, kernel_size=5),
            nn.BatchNorm(), # 批量归一化
            nn.Activation('sigmoid'),
            nn.Dropout(drop_prob1), # 第一个Dropout层
            nn.MaxPool2D(pool_size=2, strides=2),
            nn.Conv2D(16, kernel_size=5),
            nn.BatchNorm(),
            nn.Activation('sigmoid'),
            nn.Dropout(drop_prob2), # 第二个Dropout层
            nn.MaxPool2D(pool_size=2, strides=2),
            nn.Dense(120),
            nn.BatchNorm(),
            nn.Activation('sigmoid'),
            nn.Dropout(drop_prob3), # 第三个Dropout层
            nn.Dense(84),
            nn.BatchNorm(),
            nn.Activation('sigmoid'),
            nn.Dropout(drop_prob4), # 第四个Dropout层
            nn.Dense(10))
    ctx = d2l.try_gpu()
    mxnet.random.seed(0) # 固定随机种子，使结果可以复现
    net.initialize(force_reinit=True, ctx=ctx, init=init.Xavier())
    # 神经网络初始化（Xavier法）
    return net

将数据分成k折

def get_k_fold_data(k, i, X, y):
    assert k > 1
    fold_size = X.shape[0] // k
    X_train, y_train = None, None
    for j in range(k):
        idx = slice(j * fold_size, (j + 1) * fold_size)
        X_part, y_part = X[idx, :], y[idx]
        if j == i:
            X_valid, y_valid = X_part, y_part
        elif X_train is None:
            X_train, y_train = X_part, y_part
        else:
            X_train = nd.concat(X_train, X_part, dim=0)
            y_train = nd.concat(y_train, y_part, dim=0)
    return X_train, y_train, X_valid, y_valid

计算批量数据的accuracy

def evaluate_accuracy(data_iter, net):
    """Evaluate accuracy of a model on the given data set."""
    acc_sum, n = nd.array([0]), 0
    for X, y in data_iter:
        y = y.reshape((1,-1))
        y = y.astype('float32')
        acc_sum += (net(X).argmax(axis=1) == y).sum()
        n += y.size
    acc_sum.wait_to_read()
    return acc_sum.asscalar() / n

训练模型

def train_ch3_modify(net, train_iter, test_iter, loss, num_epochs, batch_size,
              params=None, lr=None, trainer=None):
    """Train and evaluate a model with CPU."""
    train_ls, test_ls = [], []
    for epoch in range(num_epochs):
        train_acc_echo, n_echo = 0.0, 0.0
        for X, y in train_iter:
            with autograd.record():
                y_hat = net(X)
                l = loss(y_hat, y).sum()
            l.backward()
            if trainer is None:
                sgd(params, lr, batch_size)
            else:
                trainer.step(batch_size)
            y = y.reshape((1,-1))
            y = y.astype('float32')
            train_acc_echo += (y_hat.argmax(axis=1) == y).sum().asscalar()
            n_echo += y.size
        train_ls.append(train_acc_echo/n_echo)
        test_ls.append(evaluate_accuracy(test_iter, net))
    return train_ls, test_ls

进行k折交叉验证

def k_fold(k, X_train, y_train, num_epochs, learning_rate, weight_decay, batch_size):
    train_l_sum, valid_l_sum = 0.0, 0.0
    loss = gloss.SoftmaxCrossEntropyLoss() #采用交叉熵作为损失函数
    train_l_mean, valid_l_mean=0.0, 0.0
    transformer = []
    transformer += [gdata.vision.transforms.ToTensor()]
    transformer = gdata.vision.transforms.Compose(transformer)
    num_workers = 0
    for i in range(k):
        X_train, y_train, X_valid, y_valid = get_k_fold_data(k, i, X_train, y_train)        
        train_kfold=gdata.ArrayDataset(X_train,y_train)
        valid_kfold=gdata.ArrayDataset(X_valid,y_valid)    
        train_iter = gdata.DataLoader(train_kfold.transform_first(transformer),    
                                  batch_size, shuffle=False,
                                  num_workers=num_workers)
        valid_iter = gdata.DataLoader(valid_kfold.transform_first(transformer),
                                 batch_size, shuffle=False,
                                 num_workers=num_workers)
        
        net = get_net()
        trainer = gluon.Trainer(net.collect_params(), 'sgd', {
     'learning_rate': learning_rate, 'wd': weight_decay})
        #训练模型，返回的是各epoch下的accuracy
        train_ls, valid_ls = train_ch3_modify(net, train_iter, valid_iter, loss, num_epochs, batch_size, None,
              None, trainer)

        train_l_sum += train_ls[-1]
        valid_l_sum += valid_ls[-1]
        train_l_mean += np.array(train_ls)
        valid_l_mean += np.array(valid_ls)
        optimal_epoch=np.mat(valid_ls).argmax(axis=1)+1        
        print('fold %d, train acc %f, valid acc %f, optimal num_epochs %d'
              % (i, train_ls[-1], valid_ls[-1], optimal_epoch))
        
        #作图
        d2l.semilogy(range(1,num_epochs+1), train_ls, 'epochs', 'acc',
                     range(1,num_epochs+1), valid_ls,['train', 'valid'])
    
    return train_l_sum / k, valid_l_sum / k, train_l_mean / k, valid_l_mean / k

k折交叉验证实例

k, num_epochs, lr, weight_decay, batch_size = 2, 100, 0.1, 0, 100
#k为交叉验证折数，lr为learning rate

train_features, train_labels = mnist_train[0:5000] #为加速展示，我这里只取了前5000个cases

#通过交叉验证选取最优的num_epochs（耗时约388秒）
start=time.time()
train_l, valid_l, train_l_fold, valid_l_fold = k_fold(k, train_features, train_labels, num_epochs, lr,
                          weight_decay, batch_size)

optimal_epoch_kfold=np.argmax(valid_l_fold)+1
print('%d-fold validation: avg train acc %f, avg valid acc %f, optimal num_epochs %d'
      % (k, train_l, valid_l, optimal_epoch_kfold))

#作图
d2l.semilogy(range(1,num_epochs+1), list(train_l_fold), 'epochs', 'acc',
             range(1,num_epochs+1), list(valid_l_fold), ['train', 'valid'])

'%.2f sec' % (time.time()-start)

深度学习4：网络优化Network Optimization（基于Python MXNet.Gluon框架）_第25张图片

深度学习4：网络优化Network Optimization（基于Python MXNet.Gluon框架）_第26张图片

在卷积神经网络的卷积层和全连接层都建立Dropout层，并设置学习率为0.1（设为0.01时效果不佳），最终效果比较好。

权重衰减

在LeNet网络的所有卷积层和全连接层之后、激活层之前加入批量归一化，并使用权重衰减。

def get_net():
    net = nn.Sequential()
    net.add(nn.Conv2D(channels=6, kernel_size=5),
        nn.BatchNorm(), # 批量归一化
        nn.Activation('sigmoid'),
        nn.MaxPool2D(pool_size=2, strides=2),
        nn.Conv2D(channels=16, kernel_size=5),
        nn.BatchNorm(),
        nn.Activation('sigmoid'),   
        nn.MaxPool2D(pool_size=2, strides=2),
        nn.Dense(120),
        nn.BatchNorm(),
        nn.Activation('sigmoid'),
        nn.Dense(84),
        nn.BatchNorm(),
        nn.Activation('sigmoid'),
        nn.Dense(10))
    ctx = d2l.try_gpu()
    mxnet.random.seed(0)
    net.initialize(force_reinit=True, ctx=ctx, init=init.Xavier())
    return net

训练模型

def train_ch3_modify(net, train_iter, test_iter, loss, num_epochs, batch_size, trainer_w, trainer_b,
              params=None, lr=None):
    """Train and evaluate a model with CPU."""
    train_ls, test_ls = [], []
    for epoch in range(num_epochs):
        train_acc_echo, n_echo = 0.0, 0
        for X, y in train_iter:
            with autograd.record():
                y_hat = net(X)
                l = loss(y_hat, y).sum()
            l.backward()
            trainer_w.step(batch_size) # 提出权重
            trainer_b.step(batch_size) # 提出偏置
            y = y.reshape((1,-1))
            y = y.astype('float32')
            train_acc_echo += (y_hat.argmax(axis=1) == y).sum().asscalar()
            n_echo += y.size
        train_ls.append(train_acc_echo/n_echo)
        test_ls.append(evaluate_accuracy(test_iter, net))
    return train_ls, test_ls

进行k折交叉验证

def k_fold_wd(k, X_train, y_train, num_epochs,
           learning_rate, weight_decay, batch_size):
    train_l_sum, valid_l_sum = 0.0, 0.0
    num_workers=0
    loss = gloss.SoftmaxCrossEntropyLoss() 
    train_l_mean, valid_l_mean=0.0, 0.0
    transformer = []
    transformer += [gdata.vision.transforms.ToTensor()]
    transformer = gdata.vision.transforms.Compose(transformer)
    for i in range(k):
        X_train, y_train, X_valid, y_valid = get_k_fold_data(k, i, X_train, y_train)        
        train_kfold=gdata.ArrayDataset(X_train,y_train)
        valid_kfold=gdata.ArrayDataset(X_valid,y_valid)    
        train_iter = gdata.DataLoader(train_kfold.transform_first(transformer),    
                                  batch_size, shuffle=False,
                                  num_workers=num_workers)
        valid_iter = gdata.DataLoader(valid_kfold.transform_first(transformer),
                             batch_size, shuffle=False,
                                 num_workers=num_workers)
        
        net = get_net()
        # 对权重进行衰减（对权重进行衰减，但对偏置不进行衰减）
        trainer_w = gluon.Trainer(net.collect_params('.*weight'), 'sgd', {
     'learning_rate': learning_rate, 'wd':weight_decay})
        trainer_b = gluon.Trainer(net.collect_params('.*bias'), 'sgd', {
     'learning_rate': learning_rate})
        #训练模型，返回的是各epoch下的accuracy
        train_ls, valid_ls = train_ch3_modify(net, train_iter, valid_iter, loss, num_epochs, batch_size, trainer_w, trainer_b, None,
              None)
        
        train_l_sum += train_ls[-1]
        valid_l_sum += valid_ls[-1]
        train_l_mean += np.array(train_ls)
        valid_l_mean += np.array(valid_ls)
        optimal_epoch=np.mat(valid_ls).argmax(axis=1)+1        
        print('fold %d, train acc %f, valid acc %f, optimal num_epochs %d'
              % (i, train_ls[-1], valid_ls[-1], optimal_epoch))
        
        #作图
        d2l.semilogy(range(1,num_epochs+1), train_ls, 'epochs', 'acc',
                       range(1,num_epochs+1), valid_ls,
                         ['train', 'valid'])
    
    return train_l_sum / k, valid_l_sum / k, train_l_mean / k, valid_l_mean / k

k折交叉验证实例

k, num_epochs, lr, weight_decay, batch_size = 2, 100, 0.01, 0.01, 100
#k为交叉验证折数，lr为learning rate

train_features, train_labels = mnist_train[0:5000] #为加速展示，我这里只取了前5000个cases

#通过交叉验证选取最优的num_epochs（耗时约388秒）
start=time.time()
train_l, valid_l, train_l_fold, valid_l_fold = k_fold_wd(k, train_features, train_labels, num_epochs, lr,
                          weight_decay, batch_size)

optimal_epoch_kfold=np.argmax(valid_l_fold)+1
print('%d-fold validation: avg train acc %f, avg valid acc %f, optimal num_epochs %d'
      % (k, train_l, valid_l, optimal_epoch_kfold))

#作图
d2l.semilogy(range(1,num_epochs+1), list(train_l_fold), 'epochs', 'acc',
             range(1,num_epochs+1), list(valid_l_fold), ['train', 'valid'])

'%.2f sec' % (time.time()-start)

深度学习4：网络优化Network Optimization（基于Python MXNet.Gluon框架）_第27张图片

深度学习4：网络优化Network Optimization（基于Python MXNet.Gluon框架）_第28张图片

权重衰减选择学习率、权重衰减率均为0.01时，解决了过拟合问题且保证了较大的准确率。

Adam法

在LeNet网络中使用Adam法，注意：这里不要做批量归一化，仅将k_fold的trainer中sgd改为adam，将learning rate设置为0.01。

def get_net():
    net = nn.Sequential()
    net.add(nn.Conv2D(channels=6, kernel_size=5, activation='sigmoid'),
            nn.MaxPool2D(pool_size=2, strides=2),
            nn.Conv2D(channels=16, kernel_size=5, activation='sigmoid'),
            nn.MaxPool2D(pool_size=2, strides=2),
            # Dense会默认将(批量大小, 通道, 高, 宽)形状的输入转换成
            # (批量大小, 通道 * 高 * 宽)形状的输入
            nn.Dense(120, activation='sigmoid'),
            nn.Dense(84, activation='sigmoid'),
            nn.Dense(10))
    ctx = mxnet.cpu()#修改：强行使用cpu进行运算
    mxnet.random.seed(0)
    net.initialize(force_reinit=True, ctx=ctx, init=init.Xavier())
    return net

训练模型

def train_ch3_modify(net, train_iter, test_iter, loss, num_epochs, batch_size,
              params=None, lr=None, trainer=None):
    """Train and evaluate a model with CPU."""
    train_ls, test_ls = [], []
    for epoch in range(num_epochs):
        train_acc_echo, n_echo = 0.0, 0.0
        for X, y in train_iter:
            with autograd.record():
                y_hat = net(X)
                l = loss(y_hat, y).sum()
            l.backward()
            if trainer is None:
                sgd(params, lr, batch_size)
            else:
                trainer.step(batch_size)
            y = y.reshape((1,-1))
            y = y.astype('float32')
            train_acc_echo += (y_hat.argmax(axis=1) == y).sum().asscalar()
            n_echo += y.size
        train_ls.append(train_acc_echo/n_echo)
        test_ls.append(evaluate_accuracy(test_iter, net))
    return train_ls, test_ls

进行k折交叉验证：将k_fold的trainer中sgd改为Adam。

def k_fold_adam(k, X_train, y_train, num_epochs, learning_rate, weight_decay, batch_size):
    train_l_sum, valid_l_sum = 0.0, 0.0
    loss = gloss.SoftmaxCrossEntropyLoss() #采用交叉熵作为损失函数
    train_l_mean, valid_l_mean=0.0, 0.0
    transformer = []
    transformer += [gdata.vision.transforms.ToTensor()]
    transformer = gdata.vision.transforms.Compose(transformer)
    num_workers = 0 if sys.platform.startswith('win32') else 4
    for i in range(k):
        X_train, y_train, X_valid, y_valid = get_k_fold_data(k, i, X_train, y_train)        
        train_kfold=gdata.ArrayDataset(X_train,y_train)
        valid_kfold=gdata.ArrayDataset(X_valid,y_valid)    
        train_iter = gdata.DataLoader(train_kfold.transform_first(transformer),    
                                  batch_size, shuffle=False,
                                  num_workers=num_workers)
        valid_iter = gdata.DataLoader(valid_kfold.transform_first(transformer),
                                 batch_size, shuffle=False,
                                 num_workers=num_workers)
        
        net = get_net()
        trainer = gluon.Trainer(net.collect_params(), 'adam', {
     'learning_rate': learning_rate})
        #训练模型，返回的是各epoch下的accuracy
        train_ls, valid_ls = train_ch3_modify(net, train_iter, valid_iter, loss, num_epochs, batch_size, None,
              None, trainer)

        train_l_sum += train_ls[-1]
        valid_l_sum += valid_ls[-1]
        train_l_mean += np.array(train_ls)
        valid_l_mean += np.array(valid_ls)
        optimal_epoch=np.mat(valid_ls).argmax(axis=1)+1        
        print('fold %d, train acc %f, valid acc %f, optimal num_epochs %d'
              % (i, train_ls[-1], valid_ls[-1], optimal_epoch))
        
        #作图
        d2l.semilogy(range(1,num_epochs+1), train_ls, 'epochs', 'acc',
                     range(1,num_epochs+1), valid_ls,['train', 'valid'])
    
    return train_l_sum / k, valid_l_sum / k, train_l_mean / k, valid_l_mean / k

k折交叉验证实例

k, num_epochs, lr, weight_decay, batch_size = 2, 100, 0.01, 0, 100
#k为交叉验证折数，lr为learning rate

train_features, train_labels = mnist_train[0:5000] #为加速展示，我这里只取了前5000个cases

#通过交叉验证选取最优的num_epochs（耗时约388秒）
start=time.time()
train_l, valid_l, train_l_fold, valid_l_fold = k_fold_adam(k, train_features, train_labels, num_epochs, lr,
                                                           weight_decay, batch_size)

optimal_epoch_kfold=np.argmax(valid_l_fold)+1
print('%d-fold validation: avg train acc %f, avg valid acc %f, optimal num_epochs %d'
      % (k, train_l, valid_l, optimal_epoch_kfold))

#作图
d2l.semilogy(range(1,num_epochs+1), list(train_l_fold), 'epochs', 'acc',
             range(1,num_epochs+1), list(valid_l_fold), ['train', 'valid'])

'%.2f sec' % (time.time()-start)

深度学习4：网络优化Network Optimization（基于Python MXNet.Gluon框架）_第29张图片

深度学习4：网络优化Network Optimization（基于Python MXNet.Gluon框架）_第30张图片

Adam算法在学习率较大时效果不太好，可能是由于下降速度太快/步长太长，如果学习率不足够小的话，可能在迭代时错过最优值或者无法收敛到最优值。改进方法是减小学习率，一般取0.001（根据《神经网络与深度学习》¹）。

参考资料

邱锡鹏. 神经网络与深度学习[M]：13-14
https://nndl.github.io/. ↩︎

你可能感兴趣的:(深度学习·所思所得,神经网络,深度学习,网络优化,python)

Python正则表达式
正则表达式是文本处理的强大工具，本文将系统全面地介绍正则表达式的所有知识点，结合Python的re模块，帮助读者从零开始掌握正则表达式的使用。1.正则表达式基础概念1.1什么是正则表达式？正则表达式（RegularExpression，简称regex或RE）是一种用于描述字符串匹配规则的表达式，它并不是Python特有的，而是计算机科学中的一个通用概念。核心功能：验证：检查字符串是否符合特定格式（
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
[python] Class 小公鸡卡哇伊呀~ Python
FisrtLook使用C++术语，Python类的所有成员（包括函数和数据）均为"public"，所有函数均为"virtual"。支持多继承支持操作符重载内建类型可用作基类关于global,nonlocal的区别，Pythondocumentation给出的例子：defscope_test():defdo_local():spam="localspam"#local变量defdo_nonlocal
用Python爬取网易云歌单 Avaricious_Bear python 开发语言
最近，博主喜欢上了听歌，但是又苦于找不到好音乐，于是就打算到网易云的歌单中逛逛本着“用技术改变生活”的想法，于是便想着写一个爬虫爬取网易云的歌单，并按播放量自动进行排序这篇文章，我们就来讲讲怎样爬取网易云歌单，并将歌单按播放量进行排序1、用requests爬取网易云歌单打开网易云音乐歌单首页，不难发现这是一个静态网页，而且格式很有规律，爬取起来应该十分简单按照以前的套路，很快就可以写完代码，无非就
基于Python的Twitter Card数据爬取与分析实战：从入门到精通 Python爬虫项目 python twitter dreamweaver 自动化开发语言宽度优先爬虫
摘要本文详细介绍了如何使用Python最新技术栈构建一个高效的TwitterCard数据爬虫系统。我们将从TwitterCard的基本概念讲起，逐步深入到爬虫架构设计、反爬策略应对、数据解析与存储等核心环节。文章包含完整的代码实现，使用Playwright+Asyncio的高性能爬取方案，以及数据分析与可视化的实战案例。通过本文，读者将掌握大规模社交媒体数据采集的关键技术，并能够将这些技术应用于实
Python爬虫实战：高效解析OpenGraph协议数据 Python爬虫项目 python 爬虫开发语言宽度优先音视频 json
OpenGraph协议简介OpenGraph协议是由Facebook于2010年推出的一种网页元数据标准，旨在使任何网页都能成为社交图中的丰富对象。通过在网页的部分添加特定的标签，网站所有者可以控制内容在社交媒体上分享时的呈现方式。OpenGraph协议的核心元数据包括：html这些标签不仅被Facebook使用，也被Twitter、LinkedIn、WhatsApp等主流社交平台广泛支持。据统计
Python高级数据类型：字典（Dictionary） PythonicCC python 开发语言
字典是Python中非常重要且实用的数据结构，本文将全面详细地介绍字典的所有知识点，从基础概念到高级用法，帮助初学者彻底掌握字典的使用。1.字典简介1.1为什么需要字典？假设我们需要存储公司员工的姓名、年龄、职务和工资信息。使用列表可以这样实现：staff_list=[["tom",20,"teacher",6000],["rose",18,"hr",5000],["jack",20,"行政",4
【小白记录python】——类（class）的简单解释 faderbic python 开发语言
目录什么是类类和函数的区别构建一个类什么是类在编程中，类（Class）是一种用户自定义的数据类型，它将数据（通常称为属性或成员变量）和对这些数据进行操作的函数（通常称为方法或成员函数）封装在一起，相比于一般的函数更方便调用，通俗来讲，类就是很多函数的集合，这些函数共用一个数据源。类可以被看作是创建对象的模板或蓝图。通过类，可以创建多个具有相同结构和行为的对象实例。以下是对类的几个关键特点的解释：数
使用 Python 爬取网易云音乐歌单数据（完整教程） Python爬虫项目 python 开发语言 github selenium 爬虫
一、引言随着在线音乐平台的普及，网易云音乐（NetEaseCloudMusic）凭借其个性化的推荐算法和丰富的用户互动，吸引了大量用户。网易云音乐的歌单中包含了丰富的音乐数据，包括歌曲名、歌手、专辑、播放量、评论数等信息。通过爬取这些数据，可以对音乐流行趋势进行分析，挖掘音乐推荐策略，甚至训练个性化推荐模型。本教程将使用Python构建一个爬虫，解析网易云音乐的歌单接口，获取歌曲数据并进行数据分析
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO 深度学习计算机视觉人工智能
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）工业相机使用YoloV8模型实现打架检测工业相机通过YoloV8模型实现打架检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）工业相机使用YoloV8模型实现人脸的检测工业相机通过YoloV8模型实现人脸识别检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO c#人工智能计算机视觉开发语言
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）工业相机使用YoloV8模型实现人物识别工业相机实现YoloV8模型实现人物识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
用AI“看病”，靠谱吗？｜聊聊如何用Python生成个性化健康建议 Echo_Wish 前沿技术人工智能人工智能 python 开发语言
用AI“看病”，靠谱吗？｜聊聊如何用Python生成个性化健康建议说实话，健康这事儿，谁不关心？可问题是，现代人越来越不想“看病”，倒不是说我们不在乎身体，而是——太麻烦、太贵、太笼统！你可能遇到过这种情况：明明每天健身，还被体检报告说“轻度脂肪肝”；营养均衡，但血糖还是偏高；去医院，医生说“少吃多动”，这谁听了不头疼？问题就出在一个词上：“个性化”。好消息是，AI已经可以提供定制化的健康建议了，
Python 单例模式几种实现方式 @MMiL PyBuild python matplotlib numpy pandas
文章目录1基础实现方式1.1模块导入法（推荐）1.2重写`__new__`方法2进阶实现方式2.1元类（Metaclass）控制2.2线程安全单例2.3单例装饰器3关键问题分析4实践建议各位老板好,单例模式确保一个类只有一个实例，并提供全局访问点。适用于日志记录、配置管理、数据库连接池等场景。以下是Python单例模式的5种实现方式：1基础实现方式1.1模块导入法（推荐）Python模块天然支持单
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习计算机视觉人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版））工业相机使用YoloV8模型实现动物分类工业相机实现YoloV8模型实现动物分类的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实
opencv、torch、torchvision、tensorflow的区别
一、框架定位与核心差异PyTorch动态计算图：实时构建计算图支持Python原生控制流（如循环/条件），调试便捷。学术主导：2025年工业部署份额24%，适合快速原型开发（如无人机自动驾驶、情绪识别）。TensorFlow静态计算图优化：预编译图结构提升部署效率支持动态图（Eager模式）兼顾灵活性。工业部署首选：市场份额38%，擅长边缘计算（YOLO部署）和大规模项目（工业自动化）-59）。O
Python简化常用技巧优雅的心情自动化测试 python 开发语言
文章目录一、列表表达式二、语法糖一、列表表达式Python为了简化程序的代码行数做了很多努力，其中最经典的就是列表表达式。比如我有如下函数，用来输出一个单词中的所有字符：defoutput_letter(letter):l=[]foriteminletter:l.append(item)returnlif__name__=="__main__":print(output_letter('kevin
Python 网络编程从入门到精通：架构、协议与 Socket 实现
Python网络编程从入门到精通：架构、协议与Socket实现网络编程是现代软件开发的核心技术之一，它允许不同设备上的程序通过网络进行通信和数据交换。本文将深入探讨网络编程的基础知识，包括软件架构设计模式、网络通信三要素、TCP与UDP协议的特点，以及Python中Socket编程的实现方法。一、软件架构设计模式1.C/S架构（Client/Server）C/S架构是最经典的网络应用架构，由客户端
python求基本勾股数_第一章：勾股数组（1）
毕达哥拉斯定理(即勾股定理)，它表明任一个直角三角形的两条直角边长的平方和等于斜边长的平方。用公式表示就是a^2+b^2=c^2第一个问题是，是否存在无穷多个勾股数组，即满足方程a^2+b^2=c^2的自然数三元组(a,b,c)。答案是“肯定的”。如果取勾股数组(a，b，c)，用整数d乘它，则得到新的勾股数组(da，db，dc)。这是成立的，因为(da)^2+(db)^2=d^2(a^2+b^2)
python flask restful_Flask应用示例1 - 通过Flask实现Restful服务 weixin_39548787 python flask restful
1，前言Python的强大，已经涉及到软件开发领域的方方面面。然而，Python入门容易，精确很难，需要深入研究。在Web方面同样如此，常用的PythonWeb框架，例如Django、Flask、Tornado等等，共计有100多种，各有优劣。本文以Flask为例，介绍Flask的Restful实现方式，主要实现对数据表的增删查改操作。2，需求在开发代码之前，需要提前明确URL请求、HTTP方法与
Python中几个有趣的语法糖 weixin_34368949 python
2019独角兽企业重金招聘Python工程师标准>>>withwith语句适用于对资源进行访问的场合，确保不管使用过程中是否发生异常都会执行必要的“清理”操作，释放资源，比如文件使用后自动关闭、线程中锁的自动获取和释放等。http://www.ibm.com/developerworks/cn/opensource/os-cn-pythonwith/fieldyield的好处是显而易见的，把一个函
java毕业设计-基于Javaweb的家常小菜烹饪学习管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿刘 vue spring boot 毕业设计 java 课程设计学习
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费开题报告、任务书、全bao定制+
实用:python中的语法糖 Monkey_24 python Python学习记录语法糖 python if else yield from for in
案例一:for循环:foriin[1,2,3]:print(i)等价于:foriin[1,2,3]:print(i)案例二:yield生成器:foriin(lambdan:(yieldfromrange(n)))(3):print(i)等价于:deffn(n):foriinrange(n):yieldigt=fn(3)foriingt:print(i)案例三:ifelse判断(lambdan:pr
【工具篇】【从冷笑话到职场革命：Manus 100 问挑战人类认知极限】再见孙悟空_ AI 进阶之旅》【2025 AI工具合集】【2025 AI学习从零单排系列】Manus AI Manus manus邀请码 manus体验 Manus PPT Manus 对比 DeepSeek
一、基础认知篇1.Manus到底是什么？它是全球首款通用型AI智能体，简单来说就是能独立完成任务的数字助手。比如你让它分析股票，它不仅能给出报告，还能自动调用Python生成图表，甚至在你睡觉的时候还能在云端继续工作。2.名字“Manus”有什么含义？来自拉丁语“MensetManus”，直译是“心智与手”。官方解释是希望它既能思考又能行动，把人类的想法变成现实，就像有个AI助手帮你干活。3.谁开
python +pyautocad 在CAD中画一个线段带箭头默金…… AutoCAD python 前端数据库
python+pyautocad在CAD中画一个线段带箭头#!/usr/bin/envpython#-*-coding:utf-8-*-frompyautocadimportAutocad,APoint,aDoubleimportmathpyacad=Autocad(create_if_not_exists=True)pyacad.prompt("Hello!Autocadfrompyautoca
java毕业设计源码案例-基于ssm+协同过滤的个性化小说推荐系统设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 项目帮 springboot java 计算机毕设 java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
AI 大模型重塑软件开发流程万花丛中一抹绿人工智能
一、AI大模型的定义与发展历史AI大模型是基于海量数据训练的深度学习模型，具备强大的自然语言理解、逻辑推理和知识生成能力。在软件开发领域，以GPT-4、CodeLlama、GitHubCopilotX为代表的大模型，能理解代码语法、语义及业务逻辑，实现代码生成、漏洞检测等复杂任务。其发展可追溯至2017年，谷歌提出Transformer架构，为大模型奠定了核心基础。2018年，GPT-1问世，参数
python 语法糖【不断更新】 linzch3 python python
1.得到a和b两个数的最大值solution:c=[b,a][a>b]测试：>>>a=1>>>b=2>>>c=[b,a][a>b]>>>c22.假设现在给定了一个list:a=[[1,2],[3,4,5],[6,7],[8],[9]]问如何将其转化成：[1,2,3,4,5,6,7,8,9]其实就是将所有数据都拿出来组成一个1*n的list。solution1:使用列表表达式>>>a=[[1,2],
PyTorch笔记6----------神经网络案例 HuashuiMu花水木 PyTorch笔记 pytorch 笔记
1.回归网络波士顿房价预测模型搭建波士顿房价数据集下载链接：百度网盘请输入提取码提取码:5279导入所需包importtorchimportnumpyasnpimportre读取数据ff=open('housing.data').readlines()data=[]foriteminff:out=re.sub(r"\s{2,}","",item).strip()#通过正则表达式去除所有空格data
pyautocad 的项目扩展与二次开发
pyautocad的项目扩展与二次开发1.项目的基础介绍pyautocad是一个开源项目，它提供了一个Python库，用于与AutoCAD进行交互。通过这个库，开发者可以在Python脚本中调用AutoCAD的功能，实现自动化的绘图、修改和管理等功能。该项目的目标是让开发者能够更加便捷地控制AutoCAD，提高工作效率。2.项目的核心功能pyautocad的核心功能包括：与AutoCAD的COM接
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少

深度学习4：网络优化Network Optimization（基于Python MXNet.Gluon框架）

网络优化

应用中的两类难点问题

网络优化

优化算法

小批量梯度下降

批量大小 K K K 的选择

学习率 α \alpha α 的调整

学习率衰减

学习率预热

周期性学习率调整

AdaGrad 算法

RMSprop 算法

AdaDelta 算法

梯度估计修正

动量法

Nesterov 加速梯度

Adam 算法

梯度截断

优化算法小结

参数初始化

Xavier 初始化

He 初始化

数据预处理

缩放归一化

标准归一化

白化

逐层归一化

批量归一化

层归一化

权重归一化

局部响应归一化

部分优化方法代码

批量归一化

丢弃法

权重衰减

Adam法

参考资料

你可能感兴趣的:(深度学习·所思所得,神经网络,深度学习,网络优化,python)

批量大小 $K$ 的选择

学习率 $\alpha$ 的调整