寥廓长空

优化算法

1 小批量梯度下降（Mini-batch gradient descent）

1.1 什么是小批量下降算法
1.2 如何设置batch的大小

2 指数加权平均

2.1 指数加权平均定义与步骤
2.2 参数 beta 的取值
2.3 偏差修正（Bias correction）

3 三个有效的优化算法

3.1 动量梯度下降算法（Gradient descent with momentum）
3.2 均方根传递 RMSprop (Root Mean Square prop)
3.3 Adam优化算法（Adaptive Moment Estimation）

4 学习率衰减(Learning rate decay)
5 局部最优与鞍点、停滞区

5.1 局部最优（Local Optima）与鞍点（Saddle Point）
5.2 停滞区（Plateaus）

1 小批量梯度下降（Mini-batch gradient descent）

1.1 什么是小批量下降算法

机器学习是一个高度依赖经验的不断重复的过程，需要训练很多模型才能找到一个最好用的。快速的优化算法、好的优化算法能够大幅提高我们的效率。

矢量化(vectorization)运算能够有效地一次性计算所有 m 个样本，而不是用一个具体的 for 循环来处理整个训练集。传统的梯度下降算法很好的利用了矢量化运算，但是 m 越大，参数更新就越慢。为了解决这个问题，可以这样做：

首先将你的训练集拆分成多个小型训练集，即小批量(mini_batch)，比如说每一个小型训练集只有 64 个训练样本；

每处理一个 mini_batch 后就更新一次参数。

而这中方法被叫做小批量下降算法（MBGD）。

第 i 个小批量样本集可表示为 ( $X^{\{t\}}, Y^{\{t\}}$ ) ，在小批量梯度下降中，对整个训练集，也就是所有 mini_batch 的一次遍历叫做一个 epoch。

在梯度下降算法中，每一次迭代需要遍历整个训练集，对于迭代次数来说，代价函数 J 通常是单调递减的。
而在小批量梯度下降中，每次迭代都是使用不同的训练集，也就是使用不同的小块 (mini-batch) ，所以代价函数 J 并不一定每次迭代都会下降，它是一个振荡的曲线但是整体趋势必须是向下的。

1.2 如何设置batch的大小

先来看看两种极端的情况：

（1）当 batch = 训练样本总数 时，此时小批量梯度下降算法就相当于批量梯度下降（BGD），即普通的梯度下降算法。
优点： 一次处理整个训练集，从而能更准确地朝总体损失最小的方向移动。当目标函数为凸函数时，BGD一定能够得到全局最优
缺点： 当数据集很大时，一次处理整个训练集，计算量大，参数更新也就慢。所以普通梯度下降算法适合与数据集比较小的时候。

（2）当 batch = 1 时，此时小批量梯度下降算法就成了 随机梯度下降算法（SGD）。
优点： 每处理完一个样本就更新参数，从而参数更新的速度大大加快。
缺点： 一个样本不能反映出总体样本的误差，所以其准确性可能不如普通梯度下降算法高；可能会走很多弯路，出现徘徊现象；可能会收敛到局部最优，即使代价函数为强凸函数的情况下，此方法仍可能无法做到线性收敛。

而小批量梯度下降算法（MBGD），batch的取值则是介于 1 到训练样本总数之间，中和了批量梯度下降算法与随机梯度下降算法的优缺点。

在小批量梯度下降算法（MBGD）中，batch 一般取值为 2 的整数次幂，例如：16、32、64、128、256等。

(1）增大 batch 的影响：
a. 矢量化运算效率提高，但参数更新速度降低。
b.梯度下降的方向的准确度增高，震荡现象减少，收敛到全局最优的可能性增加。

(2）减小 batch 的影响：
a. 不能充分利用矢量化计算，但更新参数的速度提高。
b.梯度下降的方向的准确度降低。会出现震荡，收敛到局部最优的可能性增加。

2 指数加权平均

2.1 指数加权平均定义与步骤

指数加权平均（exponentially weighted averges）：
       在统计学上也被称为指数加权滑动平均，是指应用指数级降低的加权因子，使得较旧数据的权重都呈指数下降，但不会等于零。

求解步骤：
       初始化： $v_0=0$
       求平均值： $v_t=βv_{t−1}+(1−β)θ_t$
其中 β 为参数（取值介于 0 到 1 之间）， $v_0$ 为初始平均值， $v_t$ 为前 $t$ 为条记录的平均值， $θ_t$ 为第 $t$ 条记录实际值。

以伦敦某年365天的温度作为例，如下图，左边是对每天实际温度的记录，右边是对应的散点图。

这些数据看起来好像有些噪声。如果想要计算数据的趋势，即温度的局部平均或滑动平均，可以用指数加权平均法。具体步骤如下图左，我们用 $v_t$ 代表前 $t$ 天的指数加权平均温度，结果用红色画出来，就会得到图右的红色曲线，称为每日温度的指数加权平均。

那么为什么叫指数加权平均呢？通过其公式层层代入，可以得到： $v_t = (1-\beta)\theta_t + (1-\beta)\beta\theta_{t-1} + (1-\beta)\beta^2\theta_{t-2} + ...+(1-\beta)\beta^{t-1}\theta_1=\frac{1}{1/(1-\beta)}\sum_{i=0}^{t-1}\beta^i\theta_{t-i}$ 其中 $\beta^i$ 介于 0 到 1 之间，相当于记录实际值 $\theta_{t-i}$ 的权值，而这个权值又是呈指数减小的。 $\frac{1}{1-\beta}$ 则可以看作是对最近 $\frac{1}{1-\beta}$ 天的记录求平均值，所以这就是“指数加权平均”这个名字的由来。

2.2 参数 beta 的取值

其中参数 $\beta$ 的值可以调整，可以认为 $v_t$ 近似于 $\frac{1}{1-\beta}$ 天温度的平均。

$\beta$ 的取值越大，得到的曲线会更平滑，因为你对更多天数的温度做了平均处理，因此曲线就波动更小。另一方面，这个曲线会右移，因为计算平均温度的天数增加，这个指数加权平均的公式在温度变化时，适应得更加缓慢，这就造成了一些延迟。

$\beta$ 的取值越小，得到结果中会有更多的噪声，得到的曲线振荡现象就会越明显。但它可以更快地适应温度变化。

通过调整这个参数 $\beta$ ，就可以得到略微不同的效果。上图展示了 $\beta$ 取两个极端值（0.5 和 0.98）和一个中间值（0.9）的指数加权平均结果曲线。通常 $\beta$ 取中间的某个值效果最好，也就是这里的红色曲线，它对温度的平均比绿色或者黄色的曲线更好，因为它在平滑去噪的基础上更好的刻画了温度的变化趋势。

2.3 偏差修正（Bias correction）

当我们对一组数据进行指数加权平均运算时，在刚开始的几次运算得出的结果比实际值要小，随着参与计算的平均值的实际记录值越来越多，算出来的平均值也就越来越准确了。如果我们希望在开始的时候得到比较正确的平均值，那么可以利用偏差修正（Bias correction）技术，步骤如下：

求指数加权平均值： $v_t = \beta v_{t-1}+(1-\beta)\theta_t$
执行偏差修正： $v_t = \frac{v_t }{1-\beta^t}$

可以看到，当 $t$ 值足够大时，分母 $1-\beta^t$ 是趋向于 1 的，所以偏差修正值对结果将基本没有影响。也就是说在后期偏差修正发挥的作用就越来越小了。

在机器学习中，很多的指数加权平均运算，并不会使用偏差修正，因为大多数人更愿意在初始阶段用一个稍带偏差的值进行运算。不过，如果在初始阶段就开始考虑偏差，偏差修正可以帮我们尽早做出更好的估计。

3 三个有效的优化算法

3.1 动量梯度下降算法（Gradient descent with momentum）

在训练过程中，梯度下降算法会计算很多步，并且在朝着代价最低点靠近的过程中会伴随着上下波动（振荡），如下图蓝色轨迹所示。这种振荡会减慢梯度下降的速度，同时也让我们无法使用较大的学习率。学习率越大，振荡的幅度也就越大，严重时可能会像下图紫色轨迹那样发散出去。

为了加速梯度下降的进程，且能够使用较大的学习率，我们可以对反向传播得到的梯度进行指数加权平均运算，从而
减少梯度下降过程中的振荡，使梯度下降轨迹更加平滑。具体做法为：

初始化：
        $V_{dW}$ 初始化为与 $d W$ 形状相同的全零矩阵
        $V_{db}$ 初始化为与 $d b$ 形状相同的全零矩阵
在第 $t$ 次迭代中：
        $V_{dW}=\beta_1 V_{dW}+(1-\beta_1)dW$
        $V_{db}=\beta_1 V_{db}+(1-\beta_1)db$
        $W=W-\alpha V_{dW}$
        $b=b-\alpha V_{db}$
这里 $\beta_1$ 通常取值为 0.9

3.2 均方根传递 RMSprop (Root Mean Square prop)

与动量梯度下降算法类似，它也可以加速梯度下降。步骤如下：

初始化：
        $S_{dW}$ 初始化为与 $d W$ 形状相同的全零矩阵
        $S_{db}$ 初始化为与 $d b$ 形状相同的全零矩阵
在第 $t$ 次迭代中：
        $S_{dW}=\beta_2 S_{dW}+(1-\beta_2)(dW)^2$
        $S_{db}=\beta_2 S_{db}+(1-\beta_2)(db)^2$
        $W=W-\alpha \frac{dW}{\sqrt{S_{dW}+\epsilon}}$
        $b=b-\alpha \frac{db}{\sqrt{S_{db}+\epsilon}}$
这里 $\beta_2$ 通常取值为 0.999， $\epsilon$ 通常取值为 $10^{-8}$

其中 $\epsilon$ 的存在是为了防止 $S_{dW}$ 或 $S_{db}$ 为零时导致分母为零。

3.3 Adam优化算法（Adaptive Moment Estimation）

Adam算法将动量梯度下降算法与均方根传递算法结合在了一起，是一种极其重用的优化算法，被证明能有效适用于不同的神经网络和广泛的结构。具体步骤如下：

初始化：
        $V_{dW}$ 、 $S_{dW}$ 初始化为与 $d W$ 形状相同的全零矩阵
        $V_{db}$ 、 $S_{db}$ 初始化为与 $d b$ 形状相同的全零矩阵

在第 $t$ 次迭代中：

        $V_{dW}=\beta_1V_{dW}+(1-\beta_1)dW$

        $V_{db}=\beta_1V_{db}+(1-\beta_1)db$

        $S_{dW}=\beta_2S_{dW}+(1-\beta_2)(dW)^2$

        $S_{db}=\beta_2S_{db}+(1-\beta_2)(db)^2$

        $V_{dW}^{corrected} =\frac{V_{dW} }{1-(\beta_1)^t}$

        $V_{db}^{corrected} =\frac{V_{db} }{1-(\beta_1)^t}$

        $S_{dW}^{corrected} =\frac{S_{dW} }{1-(\beta_1)^t}$

        $S_{db}^{corrected} =\frac{S_{db} }{1-(\beta_1)^t}$

        $W=W-\alpha\frac{V_{dW}^{corrected}}{\sqrt{S_{dW}^{corrected}+\epsilon}}$

        $b=b-\alpha\frac{V_{db}^{corrected}}{\sqrt{S_{db}^{corrected}+\epsilon}}$

这里 $\beta_1$ 通常取值为 0.9， $\beta_2$ 通常取值为 0.999， $\epsilon$ 通常取值为 $10^{-8}$

4 学习率衰减(Learning rate decay)

当进行小批量梯度下降时，迭代过程中步长(steps)会有些振荡，它会逐步靠近代价最小值点并周围摆动，但不会完全收敛到这一点。因为你的学习率 α 取了固定值，且不同的批次也可能产生些噪声。此时得到的梯度下降曲线如下图蓝线所示。

但是我们让学习率 α 逐步衰减，那么在初始阶段，因为学习率α取值还比较大，学习速度仍然可以比较快，但随着学习率降低 α变小，步长也会渐渐变小，所以最终将围绕着离极小值点更近的区域摆动，即使继续训练下去也不会漂游远离。此时得到的梯度下降曲线如上图绿线所示。

那么如何实现在迭代中实现率衰减(learning rate decay)呢？方法有很多：

$\alpha=\frac{1}{1\ +\ decay\_rate\ *\ epoch\_num}\ \alpha_0$
$\alpha=0.95^{epoch\_num}\alpha_0$
$\alpha=\frac{k}{\sqrt{epoch\_num}}\alpha_0$ 或者 $\alpha=\frac{k}{\sqrt{batch\_num}}\alpha_0$
根据训练情况手动调整

5 局部最优与鞍点、停滞区

5.1 局部最优（Local Optima）与鞍点（Saddle Point）

对于梯度下降或其他的算法，都很容易陷入局部最优（Local Optima） 而找不到全局最优。

在二维平面中，确实很容易存在很多局部最优。但实际上，如果你是在训练一个神经网络，参数 w 不止一个，代价函数中大部分梯度为零的点实际上并不是局部最优，而是鞍点（Saddle Point） 。在鞍点附近，代价函数 J 对于某些 w 是凸函数，而对另外一些 w 是凹函数。而局部最优或全局最优则要求代价函数 J 在任意一个方向上都是凸函数。

我们在低维空间里的大部分直观感受，实际上并不适用于深度学习算法所应用高维空间。对于一个高维空间的函数，如果某点处梯度为零，则在每个方向上可能是凸函数，或者是凹函数。假设在一个 20000 维的空间中，如果一个点要成为局部最优，则需要在所有的 20000 个方向上都是凸函数。因此这件事发生的概率非常低，大概为 $0.5^{20000}$ ，所以你更有可能遇到的情况是鞍点，而不是局部最优。

也就是说，如果训练的是一个较大的神经网络，有很多参数，代价函数 J 定义在一个相对高维的空间上，实际上不太可能陷入糟糕的局部最优。

5.2 停滞区（Plateaus）

实际上，真正会降低学习速度的实际上是停滞区（Plateaus）。停滞区指的是导数长时间接近于零的一段区域。

从左上角的红点开始，那么梯度下降会沿着这个曲面向下移动。然而因为梯度为零或接近于零，曲面很平，梯度下降会花费很长的时间，缓慢地找到停滞区里的红点（中间的红点）。然后因为左侧或右侧的随机扰动，才终于能够离开这个停滞区。

也就是说，停滞区会让学习过程变得相当慢，这也是动量（Momentum）算法、RmsProp 算法或 Adam 算法能改善学习算法的地方。

动手深度学习笔记（二十九）5.5. 读写文件落花逐流水 pytorch实践 pytorch pytorch
动手深度学习笔记（二十九）5.5.读写文件5.深度学习计算5.5.读写文件5.5.1.加载和保存张量5.5.2.加载和保存模型参数5.5.3.小结5.5.4.练习5.深度学习计算5.5.读写文件到目前为止，我们讨论了如何处理数据，以及如何构建、训练和测试深度学习模型。然而，有时我们希望保存训练的模型，以备将来在各种环境中使用（比如在部署中进行预测）。此外，当运行一个耗时较长的训练过程时，最佳的做法
AIGC视频生成模型：ByteDance的PixelDance模型好评笔记 AIGC 音视频机器学习人工智能深度学习计算机视觉 transformer
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录热门专栏机器学习深度学习
深度学习笔记——Resnet和迁移学习肆—— 深度学习深度学习笔记迁移学习
1.ResNet的提出深度学习与网络深度的挑战：在深度学习中，网络的“深度”(即层数)通常与模型的能力成正比。然而，随着网络深度的增加，一些问题也随之出现，最突出的是梯度消失/爆炸问题。这使得深层网络难以训练。梯度消失：梯度消失是指在训练深度神经网络时，通过多层传递的梯度(误差)变得非常小，接近于零。这导致网络中较早层的权重更新非常缓慢，甚至几乎不更新。梯度爆炸：梯度爆炸是指在训练深度神经网络时，
深度学习笔记——神经网络肆—— 深度学习深度学习笔记神经网络人工智能 python
本文为在拓尔思智能举办的训练营中学习内容的总结，部分内容摘自百度百科个人在这里推荐一个好用的软件，Trae，主要是免费。人工神经元是人工神经网络的基本单元。模拟生物神经元，人工神经元有1个或者多个输入（模拟多个树突或者多个神经元向该神经元传递神经冲动）；对输入进行加权求和（模拟细胞体将神经信号进行积累和树突强度不同）；对输入之和使用激活函数计算活性值（模拟细胞体产生兴奋或者抑制）；输出活性值并传递
深度学习笔记——基础部分肆—— 深度学习深度学习笔记人工智能 python pytorch
深度学习是一种机器学习的方式，通过模仿人脑吃力信息的方式，使用多层神经网络来学习数据的复杂模式和特征。深度学习和机器学习的区别：在机器学习中，特征提取通常需要人工设计和选择，依赖于领域专家的知识来确定哪些特征对模型最为重要;而在深度学习中，特征提取是自动进行的，通过多层神经网络结构直接从原始数据(也可能需要初步处理)中学习复杂特征，减少了对人工干预的依赖，使得模型能够处理更加复杂的数据和任务。计算
深度学习笔记线性代数方面，记录一些每日学习到的知识肆—— 人工智能深度学习 python
记录一些每日学习到的新知识：torch：Torch是一个有大量机器学习算法支持的科学计算框架，是一个与Numpy类似的张量(Tensor)操作库jupyter：JupyterNotebook的本质是一个Web应用程序，便于创建和共享程序文档，支持实时代码，数学方程，可视化和markdown。用途包括：数据清理和转换，数值模拟，统计建模，机器学习等等。只有一个轴的张量，形状只有一个元素torch.a
深度学习笔记——循环神经网络RNN 好评笔记补档深度学习 rnn 人工智能机器学习计算机视觉神经网络 AIGC
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍面试过程中可能遇到的循环神经网络RNN知识点。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集文章目录热门专栏机器学习深度学习文本特征提取的方法1.基础方法1.1词袋模型（BagofWords,BOW）工作原理举例优点缺点1.2TF-IDF（TermFrequency-InverseDocumentFr
机器学习笔记——特征工程好评笔记补档机器学习笔记人工智能 AIGC 深度学习计算机视觉面试八股
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本笔记介绍机器学习中常见的特征工程方法、正则化方法和简要介绍强化学习。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集文章目录热门专栏机器学习深度学习特征工程（FzeatureEngineering）1.特征提取（FeatureExtraction）手工特征提取（ManualFeatureExtraction）：自
深度学习笔记——常见的Transformer位置编码好评笔记深度学习笔记深度学习 transformer 人工智能
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍3种常见的Transformer位置编码——正弦/余弦位置编码（sin/cos）、基于频率的二维位置编码（2DFrequencyEmbeddings）、旋转式位置编码（RoPE）文章目录Transformer中常见的编码方式正弦/余弦位置编码（SinusoidalPositionalEncoding）基于频率的
深度学习面试八股文——决战金三银四 Good Note 补档深度学习面试人工智能机器学习 AIGC 校招春招
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本笔记的任务是解读深度学习实践/面试过程中可能会用到的知识点，内容通俗易懂，入门、实习和校招轻松搞定。公主号合集地址点击进入优惠地址：深度学习笔记合集笔记介绍本笔记的任务是解读深度学习实践/面试过程中可能会用到的知识点，内容通俗易懂，入门、实习和校招轻松搞定。涵盖深度学习八股文和常用算法、模型，包括深度学习基础知识，前向传
SD模型微调之LoRA 好评笔记补档深度学习计算机视觉人工智能面试 AIGC SD stable diffusion
大家好，这里是Goodnote（好评笔记），关注公主号Goodnote，专栏文章私信限时Free。本文是SD模型微调方法LoRA的详细介绍，包括数据集准备，模型微调过程，推理过程，优缺点等。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集文章目录热门专栏机器学习深度学习论文概念核心原理优点训练过程预训练模型加载选择微调的层LoRA优化的层Cross-Attention（跨注意力）层Self
深度学习笔记之自然语言处理(NLP) 电棍233 深度学习笔记自然语言处理
深度学习笔记之自然语言处理(NLP)在行将开学之时，我将开始我的深度学习笔记的自然语言处理部分，这部分内容是在前面基础上开展学习的，且目前我的学习更加倾向于通识。自然语言处理部分将包含《动手学深度学习》这本书的第十四章，自然语言处理预训练和第十五章，自然语言处理应用。并且参考原书提供的jupyternotebook资源。自然语言处理，预训练自然语言处理（NaturalLanguageProcess
动手学深度学习笔记|3.2线性回归的从零开始实现（附课后习题答案） lusterku 动手学深度学习深度学习笔记线性回归
动手学深度学习笔记|3.2线性回归的从零开始实现（附课后习题答案）线性回归的从零开始实现生成数据集读取数据集初始化模型参数定义模型定义损失函数定义优化算法训练练习1.如果我们将权重初始化为零，会发生什么。算法仍然有效吗？2.计算二阶导数时可能会遇到什么问题？这些问题可以如何解决？3.为什么在`squared_loss`函数中需要使用`reshape`函数？4.尝试使用不同的学习率，观察损失函数值下
深度学习笔记——pytorch构造数据集 Dataset and Dataloader 旺仔喔喔糖机器学习笔记 pytorch 人工智能深度学习
系列文章目录机器学习笔记——梯度下降、反向传播机器学习笔记——用pytorch实现线性回归机器学习笔记——pytorch实现逻辑斯蒂回归Logisticregression机器学习笔记——多层线性（回归）模型Multilevel(LinearRegression)Model深度学习笔记——pytorch构造数据集DatasetandDataloader深度学习笔记——pytorch解决多分类问题M
吴恩达深度学习笔记（七）——机器学习策略子非鱼icon 深度学习自学笔记深度学习机器学习人工智能神经网络吴恩达
一、正交化通俗的理解就是：要能够诊断出系统性能瓶颈在哪里，以有策略刚好解决这个问题。一个“按钮”只负责解决一件事情。二、单一数字评估指标准确率（precision）：在分类器中标记为猫的例子中，有多少是真的猫召回率（recall）：对于所有的真猫图片，你的分类器正确识别了多少。但如果有两个评估指标，就很难去选择一个更好的分类器，如下图所示。所以有一个结合这两个指标的标准方法，也即F1分数，定义如下
AIGC视频生成模型：Meta的Emu Video模型好评笔记 #Meta AIGC-视频 AIGC 机器学习人工智能 transformer 论文阅读深度学习面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Meta的视频生成模型EmuVideo，作为Meta发布的第二款视频生成模型，在视频生成领域发挥关键作用。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言相关工作文本到图像（T2I）扩散模型视频生成/预测文本到视频（T2V）生成分解生成方法预备知识EmuVideo生成步骤图
AIGC视频生成国产之光：ByteDance的PixelDance模型好评笔记 AIGC-视频补档 AIGC 计算机视觉人工智能深度学习机器学习论文阅读面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言输入训练和推理时的数据处理总结相关工作视频生成长视频生成方法模型架构
深度学习笔记——模型部署好评笔记深度学习笔记深度学习笔记人工智能 transformer 模型部署大模型部署大模型
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文简要概括模型部署的知识点，包括步骤和部署方式。文章目录模型部署模型部署的关键步骤常见的模型部署方式优势与挑战总结边缘端部署方案总结历史文章机器学习深度学习模型部署模型部署是指将训练好的机器学习或深度学习模型集成到生产环境中，使其能够在实际应用中处理实时数据和提供预测服务。模型部署的流程涉及模型的封装、部署环境的选择、部
深度学习笔记——前向传播与反向传播、神经网络（前馈神经网络与反馈神经网络）、常见算法概要汇总好评笔记深度学习笔记深度学习笔记神经网络人工智能
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文简要介绍深度学习的前向传播与反向传播，以及前馈神经网络与反馈神经网络。文章目录前向传播与反向传播前向传播（ForwardPropagation）反向传播（BackPropagation）总结神经网络简介结构类型前馈神经网络（FeedforwardNeuralNetwork,FFNN）特点常见变体反馈神经网络（Feedb
深度学习笔记——生成对抗网络GAN 好评笔记深度学习笔记深度学习生成对抗网络人工智能神经网络 aigc gan 机器学习
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍早期生成式AI的代表性模型：生成对抗网络GAN。文章目录一、基本结构生成器判别器二、损失函数判别器生成器交替优化目标函数三、GAN的训练过程训练流程概述训练流程步骤1.初始化参数和超参数2.定义损失函数3.训练过程的迭代判别器训练步骤生成器训练步骤4.交替优化5.收敛判别GAN训练过程的挑战四、GAN的常见变体
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
吴恩达深度学习笔记(24)-为什么要使用深度神经网络？极客Array
为什么使用深层表示？（Whydeeprepresentations?）我们都知道深度神经网络能解决好多问题，其实并不需要很大的神经网络，但是得有深度，得有比较多的隐藏层，这是为什么呢？我们一起来看几个例子来帮助理解，为什么深度神经网络会很好用。首先，深度网络在计算什么？如果你在建一个人脸识别或是人脸检测系统，深度神经网络所做的事就是，当你输入一张脸部的照片，然后你可以把深度神经网络的第一层，当成一
【深度学习笔记】1 数据操作 RIKI_1 深度学习深度学习笔记人工智能
注：本文为《动手学深度学习》开源内容，仅为个人学习记录，无抄袭搬运意图数据操作在深度学习中，我们通常会频繁地对数据进行操作。作为动手学深度学习的基础，本节将介绍如何对内存中的数据进行操作。在PyTorch中，torch.Tensor是存储和变换数据的主要工具。如果你之前用过NumPy，你会发现Tensor和NumPy的多维数组非常类似。然而，Tensor提供GPU计算和自动求梯度等更多功能，这些使
【深度学习笔记】6_4 循环神经网络的从零开始实现 RIKI_1 深度学习深度学习笔记 rnn
注：本文为《动手学深度学习》开源内容，部分标注了个人理解，仅为个人学习记录，无抄袭搬运意图6.4循环神经网络的从零开始实现在本节中，我们将从零开始实现一个基于字符级循环神经网络的语言模型，并在周杰伦专辑歌词数据集上训练一个模型来进行歌词创作。首先，我们读取周杰伦专辑歌词数据集：importtimeimportmathimportnumpyasnpimporttorchfromtorchimport
【深度学习笔记】6_10 双向循环神经网络bi-rnn RIKI_1 深度学习深度学习笔记 rnn
注：本文为《动手学深度学习》开源内容，部分标注了个人理解，仅为个人学习记录，无抄袭搬运意图6.10双向循环神经网络之前介绍的循环神经网络模型都是假设当前时间步是由前面的较早时间步的序列决定的，因此它们都将信息通过隐藏状态从前往后传递。有时候，当前时间步也可能由后面时间步决定。例如，当我们写下一个句子时，可能会根据句子后面的词来修改句子前面的用词。双向循环神经网络通过增加从后往前传递信息的隐藏层来更
深度学习笔记１：神经网络端到端学习笔记撒哈拉土狼深度学习
许多重要问题都可以抽象为变长序列学习问题（sequencetosequencelearning），如语音识别、机器翻译、字符识别。这类问题的特点是，1)输入和输出都是序列（如连续值语音信号/特征、离散值的字符），2)序列长度都不固定，3)并且输入输出序列长度没有对应关系。因此，传统的神经网络模型（DNN，CNN，RNN）不能直接以端到端的方式解决这类问题的建模和学习问题。解决变长序列的端到端学习，
吴恩达深度学习-L1 神经网络和深度学习总结向来痴_ 深度学习人工智能
作业地址：吴恩达《深度学习》作业线上版-知乎(zhihu.com)写的很好的笔记：吴恩达《深度学习》笔记汇总-知乎(zhihu.com)我的「吴恩达深度学习笔记」汇总帖（附18个代码实战项目）-知乎(zhihu.com)此处只记录需要注意的点，若想看原笔记请移步。1.1深度学习入门我们只需要管理神经网络的输入和输出，而不用指定中间的特征，也不用理解它们究竟有没有实际意义。1.2简单的神经网络——逻
深度学习笔记：推理服务 TaoTao Li tensorflow 深度学习深度学习人工智能机器学习
在线推理服务解决的问题样本处理特征抽取(生成)特征抽取过程特征定义通用定义具体定义特征抽取加速Embeding查询NN计算DL框架计算优化图优化量化优化异构计算CodeGen总结参考资料解决的问题模型训练解决模型效果问题，模型推理解决模型实时预测问题。推理服务是把训练好的模型部署到线上，进行实时预测的过程。如阿里的RTP系统顾名思义，实时预测是相对于非实时预测(离线预测)而言，非实时预测是将训练好
fast.ai 深度学习笔记（三）绝不原创的飞龙人工智能人工智能深度学习笔记
深度学习2：第1部分第6课原文：medium.com/@hiromi_suenaga/deep-learning-2-part-1-lesson-6-de70d626976c译者：飞龙协议：CCBY-NC-SA4.0来自fast.ai课程的个人笔记。随着我继续复习课程以“真正”理解它，这些笔记将继续更新和改进。非常感谢Jeremy和Rachel给了我这个学习的机会。第6课[##2017年深度学习优
深度学习笔记 stoAir 深度学习笔记人工智能
DeepLearningBasic神经网络：algorithm1input1outputinput2input3input4algorithm2监督学习：1个x对应1个y；Sigmoid:激活函数sigmoid=11+e−xsigmoid=\frac{1}{1+e^{-x}}sigmoid=1+e−x1ReLU:线性整流函数；##LogisticRegression-->binaryclassif
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l

优化算法

优化算法

1 小批量梯度下降（Mini-batch gradient descent）

1.1 什么是小批量下降算法

1.2 如何设置batch的大小

2 指数加权平均

2.1 指数加权平均定义与步骤

2.2 参数 beta 的取值

2.3 偏差修正（Bias correction）

3 三个有效的优化算法

3.1 动量梯度下降算法（Gradient descent with momentum）

3.2 均方根传递 RMSprop (Root Mean Square prop)

3.3 Adam优化算法（Adaptive Moment Estimation）

4 学习率衰减(Learning rate decay)

5 局部最优与鞍点、停滞区

5.1 局部最优（Local Optima）与鞍点（Saddle Point）

5.2 停滞区（Plateaus）

你可能感兴趣的:(深度学习笔记)