lovecencen1893

吴恩达深度学习课程笔记（二）：改善深层神经网络

吴恩达深度学习课程笔记（二）：改善深层神经网络
- 第一周深度学习的实用层面
  - 1.1 训练 / 开发 / 测试集
  - 1.2 偏差 / 方差
  - 1.3 机器学习基础
  - 1.4 正则化
  - 1.5 为什么正则化可以减少过拟合？
  - 1.6 Dropout 正则化
  - 1.7 理解 Dropout
  - 1.8 其他正则化方法
  - 1.9 归一化输入
  - 1.10 梯度消失与梯度爆炸
  - 1.11 神经网络的权重初始化
  - 1.12 梯度的数值逼近
  - 1.13 梯度检验
  - 1.14 关于梯度检验实现过程中的注意事项
- 第二周优化算法
  - 2.1 Mini-batch 梯度下降法
  - 2.2 理解 mini-batch 梯度下降法
    - 选择mini-batch size：
      - 选择mini batch size 的指导原则
  - 2.3 指数加权平均
  - 2.4 理解指数加权平均
  - 2.5 指数加权平均的偏差修正
  - 2.6 动量梯度下降法Gradient descent with momentum
    - 标准梯度下降的缺点：
    - momentum 梯度下降：
  - 2.7 RMSprop
  - 2.8 Adam 优化算法
  - 2.9 学习率衰减
    - 为什么要计算学习率衰减？
    - 如何进行学习率衰减?
    - 其他学习率衰减的办法
  - 2.10 局部最优的问题
    - 鞍点
    - 平稳段问题
- 第三周超参数调试、Batch Normalization和程序框架
  - 3.1 超参数调整
    - 超参数重要程度分级
    - 随机
  - 3.2 为超参数选择合适的范围
    - 给αα\alpha取值
    - 给ββ\beta取值（给有指数加权平均值的超参数取值）
  - 3.3 超参数调整的实践：Pandas VS Caviar
  - 3.4 batch normalization(归一化网络的激活函数)
    - 优点：
    - normalizing inputs to speed up learning
    - 实现Batch Norm
  - 3.5 将 Batch Norm加入到神经网络
    - BN加入到神经网络
    - BN working with mini-batches
    - 实现带BN的梯度下降：
  - 3.6 Batch Norm 为什么奏效？
    - covariate shift 问题：
    - 减弱covariate shift
    - BN的轻微正则化
  - 3.7 测试时的 Batch Norm
  - 3.8 Softmax 回归
  - 3.9 训练一个 Softmax 分类器
    - hard vs soft
    - 理解softmax回归
    - 损失函数loss function
    - 代价函数cost function
  - 3.10 深度学习框架
  - 3.11 TensorFlow

第一周深度学习的实用层面

1.1 训练 / 开发 / 测试集

应用机器学习算法是一个高度迭代的过程。从一开始的idea，一直要进行不断的尝试、更新。超参数的选择就在这个不断地迭代尝试过程中产生。
创建高质量的训练集、验证集、测试集有助于提高迭代效率。
- 训练集训练几个模型；验证集选出最好的模型；在测试集上评估该模型的性能。
- 在小数据时代，可以60%/20%/20%;
- 在大数据时代，验证集和测试集的比例更小；比如1 000 000 条数据，可能取10000条进行验证即可。
训练集和测试集分布不匹配的情况很多：
- 训练猫咪图像分类，训练集图片来组互联网，高清，制作精良；验证集和测试集图像来自用户手机拍摄，质量差，像素低，模糊；
- 经验：确保验证集和测试集的数据来自同一分布。
- 经验：就算没有测试集也ok，测试集的目的是对最后的模型做出无偏的评估，但是如果不需要无偏的评估，就可以不设置测试集。
如果没有测试集，仅有训练集和验证集，那么这个时候验证集被有些人们称之为测试集，但其实这个“测试集”起到的是验证集的作用。所以叫做测试集是错误的。只有两个划分的时候，就只有训练集和验证集。
验证集和测试集可以加速神经网络的集成。也可以更有效的衡量算法的偏差和方差。

1.2 偏差 / 方差

通过训练集的误差和验证集的误差查看：

存在高偏差高方差的情况：

上述结论是在基础误差很小的情况下成立的。

1.3 机器学习基础

用训练集和验证集检测模型是否存在高偏差or高方差问题。
机器学习早期存在方差偏差平衡问题。
在大数据和深度学习时代，可以做到只降低偏差（方差），而基本不影响方差（偏差），即在降低一方的同时，不过多影响另一方。比如：
- 适度正则化的情况下，更大的network可以在不影响方差的情况下降低偏差；
- 用更多的数据训练网络能够在不过多影响偏差的情况下降低方差。

在大数据和深度学习时代，不用过多关心如何平衡偏差和方差。这是大数据和深度学习带来的一个益处。
在网络比较规范的情况下，训练一个更大的网络的主要代价也只是计算时间(or算力)。其他负面影响很小。

1.4 正则化

regularization

逻辑回归：
J(w,b)=1m∑mi=1L(y^(i),y(i))+λ2m||w||22

L2 正则化： λ2m||w||22 ，其中， ||w||22=∑nxj=1w2j=wTw

L1 正则化： λ2m||w||1=λ2m∑nxj=1|wj| ； L1 正则化之后的 w 是稀疏的。
神经网络：

J(w[1],b[1],w[2],b[2],...,w[L],b[L])=1m∑mi=1L(y^(i),y(i))+λ2m∑Ll=1||w[l]||2F

L2 正则化： λ2m∑Ll=1||w[l]||2F ，其中， ||w||2F=∑n[l]i=1∑n[l−1]j=1w2ij
则：
dw[l]=∂J∂w[l]+λmw[l]
那么：
w[l]=w[l]−αdw[l]=w[l]−α（∂J∂w[l]+λmw[l]）=（1−αλm）w[l]−α∂J∂w[l]
即正则化与没有正则化相比，就是在 w[l] 更新的时候减去了一个 αλmw[l] ，也就是为原来 w[l] 的 1−αλm 倍。

1.5 为什么正则化可以减少过拟合？

如果将 λ 取得非常大，那么很多 w 接近于0，也就是网络变得更加简单，这样会从高方差（过拟合）导致到高偏差（欠拟合）。
但是 λ 适中的时候，我们会减少很多隐藏单元的影响，神经网络变得更简单，不容易发生过拟合。但也不会简化到欠拟合的程度。
直观理解：
如果 w 在一个很小的区间，那么最后的 z 也很小，经过激活函数的时候一直在其线性部分，如果整个网络都是这样，那么实际上，这就是个线性分类器。非线性的部分很少。也就是说，如果 w 的范围小，那么网络去拟合数据集的非线性决策边界的能力就弱，不容易发生过拟合。

1.6 Dropout 正则化

dropout是一种正则化方法。
能防止过拟合。
除非算法过拟合，不然不使用dropout。

dropout：以一定概率随机删除网络中的神经单元。让每次训练的网络都不同。防止过拟合的问题。

dropout有很多种。
inverted dropout (反向随机失活)：
训练阶段：
以神经网络的第三层为例： l=3

keep_prob = 0.8  # 保留80%的节点，删除20%的节点。
d3 = np.random.rand(a3.shape[0], a3.shape[1]) < keep_prob  # d3，第三层的dropout矩阵，a3，第三层的输出。
a3 = np.mutiply(a3, b3)  # a3 *= b3，点乘
a3 /= keep_prob # 保持a3的期望和与dropout之前相比，不发生变化

a3 /= keep_prob这一步，保持了a3的期望不变，所以和不除相比，在测试阶段变得更容易，因为平均值不会发生太大变化。
inverted dropout 最常用。
测试阶段：
测试阶段不使用dropout，所以在训练阶段除以keep_prob的意义就在于此。即让训练阶段和测试阶段的激活函数的预期结果不要发生太大变化。

1.7 理解 Dropout

对下一层的神经单元来说，上一次神经单元就是这个神经单元的输入。
因为神经单元的输入随时有可能被删除，所以该神经单元不能依赖于某一个特定的单一特征，必须将权重在所有特征上分配，也就是传播权重。
dropout的效果就是：收缩权重的平方范数。即：压缩权重。正则化，防止过拟合。
功能上类似L2正则化，不同之处是应用的方式不同，dropout也会有相应变化。更适用于不同的输入范围。

keep_prob=1，即没有dropout正则化；
对输入层，即输入特征，一般不使用dropout，即keep_prob=1，即使使用，keep_prob的值也接近1；
不同层的keep_prob可以不同：
- 对比其他层更容易发生过拟合的层，keep_prob可以设置的小一些；
- 对不太可能出现过拟合或者程度小的层，keep_prob可以设置的大一些，甚至是1；
将不同层的dropout的keep_prob设置成不一样的，这样做的缺点是：为了使用交叉验证，必须寻找更多的超参数。
另一种方案是：
仅对一部分层设置dropout，其他层不设置，且这些设置dropout的层用同一个keep_prob值。

dropout的缺点：
代价函数J没有办法去明确定义。因此，我们失去了调试工具，没有办法绘制梯度下降迭代的J的下降曲线。
- 解决办法：
先将keep_prob=1，即关闭dropout，待模型的代价函数的曲线下降后，再打开dropout。

1.8 其他正则化方法

数据增强
比如讲图像数据集的训练集数据图像都水平翻转一次。
因为数据有冗余，所以没有加入新的数据集那么好，但比起新加数据集，节省了很多成本和时间。
对图像：随机翻转、裁剪等手段增大数据集。
对字符：随意旋转、扭曲字符。
早停法
- 优点：耗费时间少
- 缺点：验证集J和训练集J的差距比较小的地方，偏差有可能很大。早停法一种方法必须兼顾两种问题，没有办法分开解决。
- 如果不用早停法解决问题，那么使用L2正则化，则神经网络的训练时间就长。同时需要花时间去选择正则化参数 λ 的值。

1.9 归一化输入

Normalizing inputs
训练集数据算出 μ 和 σ2 ；
用 μ 和 σ2 对整个数据集（训练集、验证集、测试集）进行归一化；

为什么要归一化？
如果不归一化，代价函数有可能就是一个非常细长狭窄的函数。归一化后的代价函数图像个更加对称。
对前者，梯度下降不得不用更小的学习速率。
对后者，梯度下降能更直接的找到最小值。可以使用较大的步长。

1.10 梯度消失与梯度爆炸

参考资料：
详解机器学习中的梯度消失、爆炸原因及其解决方法

梯度消失和梯度爆炸在本质上是一种情况。

梯度消失经常出现在深层网络和采用了不合理的损失函数之时，如sigmoid；
梯度爆炸经常出现在深层网络和权重初始化值太大之时。

深层网络角度：
BP过程中，由链式法则，对激活函数的导数大于1，不断的相乘，最终导致梯度爆炸；
对激活函数的导数小于1，不断的相乘，最终导致梯度消失；
梯度爆炸和消失的根本原因就是反向传播算法的先天不足导致的。
激活函数角度
sigmoid函数的导数最大不超过0.25，选择这样的激活函数很容易导致梯度消失；
tanh比sigmoid略佳，但导数仍然小于1；
解决办法：
- 预训练+微调：
  - 单独训练每一隐层，微调后，再BP，很少使用；
- 梯度裁剪：
  - 主要针对梯度爆炸，设置梯度阈值，把超过阈值的梯度强制限制在范围内；
- 权重正则化：
  - 可以减少梯度爆炸的概率；
- 激活函数：
  - relu，在>0的部分导数恒为1；解决梯度消失和梯度爆炸的问题；
    优点：
    解决梯度爆炸、梯度消失；
    计算方便、速度快；
    加速网络的训练。
    缺点：
    输出不是以0为中心的；
    负数部分导数恒为0，会导致一些神经元无法激活。
  - leaky relu:
    包含relu的优点；
    解决relu的缺点；
  - elu:
    比leaky relu计算耗时
- BN：bacth normalization, 批规范化
- 残差结构
- LSTM

1.11 神经网络的权重初始化

权重初始化是对一开始的 w 进行初始化的技巧，可以减缓梯度消失和梯度爆炸。属于加快训练速度的技巧之一。
思想是，神经元的输入越多，所有的随机化的 wi 乘以 xi 的之和就越大。为了不变大，将 w 的方差减小。即 w 的方差为 1/n
权重初始化，即对随机生成的 w 的方差进行初始化。
W_l=np.random.randn((l_n, L_n_1))*np.sqrt(1/n)
在实际操作过程中，针对不同的激活函数， w 有不同的方差。
- relu：
2n[n−1]
w[l]=np.random.randn(shape)∗np.sqrt(2n[n−1])
- tanh:
1n[n−1] 或者 2n[n−1]+　n[n]
w[l]=np.random.randn(shape)∗np.sqrt(1n[n−1])
w[l]=np.random.randn(shape)∗np.sqrt(2n[n−1]+　n[n])

以上就是初始化权重矩阵 w 的方差的默认值。
在这些默认的方差效果不理想的情况下，可以调整方差的分子(算是一个超参数)——方差参数。在神经网络的众多超参数中，调整该参数的优先级很低。

1.12 梯度的数值逼近

双边误差比单边误差精确度更高，梯度的数值逼近一般用双边误差。

1.13 梯度检验

gradient checking
grad check
用梯度检验检查一个神经网络反向传播的正确与否。

dΘ[i]approx=J(…，θi+ϵ，…)−J(…，θi−ϵ，…)2ϵ

||dΘapprox−dΘ||2||dΘapprox||2+||dΘ||2
取 ϵ=10−7
如果结果约等于 10−7 ，那么认为梯度没有问题。
如果大于了，可能就有bug。

1.14 关于梯度检验实现过程中的注意事项

不能在训练时使用梯度检验，——仅用于dubug；
如果梯度检验结果很大，检查每一项去找到bug；
不要忘记正则化部分，也是 \theata 的一部分；
不要在dropout的网络上使用梯度检验，因为dropout很难计算代价函数 J ，没办法去使用梯度检验。也就是，将dropout的keep_prob = 1,再进行梯度检验。
（很少用）在一开始初始化网络参数后，即进行一次梯度检验；在网络训练一段时间后，再进行一次梯度检验。因为一开始 w 和 b 比较小，梯度下降是正确的，随着 w 和 b 越来越大，梯度下降有可能出错。

第二周优化算法

优化算法帮助你快速训练模型。

2.1 Mini-batch 梯度下降法

数据集分成若干个小的子集，每个子集叫一个mini-batch。每次训练神经网络，只用一个mini-batch，可以加快网络的训练速度。
x(i) ，第 i 个样本；
z[i] ，第 i 层神经网络；
X{i}，第 i 个mini-batch，每一个mini-batch都有很多个样本；
必然要引入for循环，为了训练完所有的mini-batch。

1 epoch：遍历了一遍训练集。
如果采用梯度下降（又叫batch gradient descent），1 epoch只有一次梯度下降。
如果采用Mini-batch 梯度下降法，1 epoch有5000次梯度下降（每个mini batch有1000个数据，整个训练集有500 0000个数据）。
一般的，需要多次遍历训练集。直到收敛到合适的精度。
mini-batch 梯度下降比 batch 梯度下降快。

2.2 理解 mini-batch 梯度下降法

与batch gradient descent相比，mini-batch gradient descent的学习曲线没有那么平滑，有很多噪声，但总体趋势应该也是不断降低向下。

选择mini-batch size：

如果mini-batch size=m：batch gradient descent——批梯度下降 (X{1},Y{1})=(X,Y) ，单次迭代耗时太长。
如果mini-batch size=1：stochastic gradient descent——随机梯度下降，每一个样本就是一个mini-batch。 (X{i},Y{i})=(x(i),y(i)) ，失去向量化带来的加速作用，效率低。
1 << mini-batch size << m，mini batch gradient descent——mini-batch 梯度下降，介于梯度下降和随机梯度下降之间。mini-batch size not too big, not too small——>学习速率最快。
- 首先，大量的向量化数据；
- 其次，不用等整个数据集都计算后再梯度下降，单次迭代耗时短。

batch梯度下降：

相对噪声低；
幅度大( α )；
训练下降方向指向最小值方向；
最终能收敛到最小值。

随机梯度下降：

噪声比较大；
为了抑制噪声，学习速率 α 要设置的小一些；
每次训练的下降方向不一定是指向最小值的方向；
永远无法收敛，但是会在最小值附近波动；

mini-batch 梯度下降：

每次下降方向不总是指向最小值方向，但比随机梯度下降要更持续地靠近最小值的方向；
不一定收敛，有可能在最小值的附近很小的范围内波动；
如果在最小值附近波动，可以慢慢减小学习率 α 。

蓝色为batch梯度下降；
紫色为随机梯度下降；
绿色为mini batch梯度下降。

选择mini batch size 的指导原则

如果训练集小（m <= 2000）：用batch梯度下降；
其他选择mini batch梯度下降；
典型的mini batch size(64-512之间)：64、128、256、512（选择2的次幂，代码会运行的快一些）；
确保mini batch符合CPU/GPU的内存；
需要对mini batch size选择一些不同的值来挑选使得模型的代价函数下降最快的一个。

2.3 指数加权平均

接下来几节学习比梯度下降快的优化算法。
在学习这些算法前，必须学会指数加权平均（统计学叫指数加权移动平均）。

指数加权平均：
$V 0 = 0$
$V t = β V t - 1 + (1 - β) θ t$
其中， Vt 近似为 11−β 天的数据平均值； 0<=β<=1 ；

β 越大，曲线越平滑，但曲线会进一步右移；
β 越小，曲线波动越大，更有可能出现异常值，但能更好的适应数据的变化趋势。

指数加权平均可以理解为：由过去几天的数据在今天的平均值构成的曲线。

2.4 理解指数加权平均

向量化 Vθ 的计算，基本上只占一行代码。
Vθ=0
repeat：{
get next θt
Vθ=βVθ+(1−β)θt
}

优点：

代码量少；占用极小内存；运算量小；结果虽不精确但也不赖。
- 不是最好的计算平均数的方法，也不是最精确的。但如果使用一个窗去计算10天的平均数，会有很多行代码，执行更加复杂，计算成本更加高昂。

2.5 指数加权平均的偏差修正

如果没有偏差修正，曲线的最左侧很小，无法反应真实情况。
那么添加偏差修正会改善这种情况。
即：     Vθ=βVθ+(1−β)θt1−βt
分开写：
Vθ=0
repeat：{
    get next θt
    Vθ=βVθ+(1−β)θt
    Vθ=Vθ/(1−βt)
}
对结果除以 1−βt ，效果是能够消除一开始的偏差，而对后期没有影响。
大部分人不愿意使用偏差修正，而是熬过初始时期。
如果你关心初始时期的偏差， 偏差修正能够帮助你在模型训练的早期获得更好的估计。

紫色为没有偏差修正，绿色为偏差修正后。

2.6 动量梯度下降法Gradient descent with momentum

训练速度比标准的梯度下降法要快。

基本思想：
计算梯度的指数加权平均数，作为新的梯度，来训练网络。

标准梯度下降的缺点：

标准梯度下降（包括batch梯度下降、mini batch梯度下降、随机梯度下降），下降过程中存在波动。导致：1，训练模型耗时；2，无法使用过大的学习率 α 。为了避免摆动过大，需要使用较小的 α 。
在纵轴上，希望学习的慢一点；在横轴上，希望学习快。

momentum 梯度下降：

Vdw=0、Vdb=0
On iteration t：
    compute dw、db on current mini-batch
    Vdw=βVdw+(1−β)dw
    Vdb=βVdb+(1−β)db
    w=w−αVdw
    b=b−αVdb
两个超参数：

α 学习速率；
β 控制着指数加权移动平均数，一般为 β=0.9 (具有鲁棒性)；

一般不会添加偏差修正；

在竖直方向上，计算指数加权移动平均值，正负相抵，减少纵轴方向上的波动；
在水平方向上，所有的微分都是指向最小值方向的，所以指数加权移动平均值的影响不大；
所以，纵轴方向波动减小，横轴方向运动更快。
即，在抵达最小值的路上减少了摆动。

想象一个碗装的函数，开口朝上。一个点位于碗的上沿。momentum梯度下降就相当于给下降的小球一个加速度。因为 β 比1小一些，类似于摩擦力，所以速度不会无限制的增大下去。

在 Vdw=βVdw+(1−β)dw 中， Vdw 就是前一刻的速度， dw 就是加速度。小球具有的动量会越来越大。

与梯度下降每次迭代都是独立的不同，模型可以从momentum梯度下降中获得一个越来越大的动量。而这个动量是跟以前的若干次梯度下降有关系的。

图像来自深度学习优化函数详解（4）– momentum 动量法

momentum GD可以想象成小球从坡上往下滚。小球的动量越来越大，过最低点后仍然会往前冲，如果冲到了另一个下坡。，有可能到一个更低点（更好的局部极小值）。如果动量没那么大，会慢慢的慢下来，再次返回到第一个低点。

2.7 RMSprop

RMSprop：root mean square propagation，方均根传播
作用：加速梯度下降
简化的算法说明：
On iteration t:
    compute dw, db on current mini-batch
     Sdw=β2Sdw+(1−β2)(dw)2
     Sdb=β2Sdb+(1−β2)(db)2
     w=w−αdwSdw√
     b=b−αdbSdb√
现在假设b的方向为纵向，w的方向为横向，那么蓝色线为梯度下降的路线。
而RMSprop因为 S 的存在:
一开始前进方向的 dw 小，垂直方向的 db 大，梯度小反而由于 Sdw−−−√ 做分母，导致 w 变化大， b 变化小，所以将垂直方向压缩，水平方向拉伸，导致波动减小，这样加快训练速度。
同时，由于波动减小（不容易发生学习速率过大时导致不收敛或发散的问题），我们可以设置更大的学习速率 α 。
实际上前进方向和垂直于前进方向的方向（纵轴方向）上的参数不一定就是 w 、 b 。有可能是如图：
- 纵轴为 w1、w3、w7 、横轴为 w2、w4.......
为什么叫做RMSprop？
- Sdw=β2Sdw+(1−β2)(dw)2 的 (dw)2 是平方和；
- w=w−αdwSdw√ 的 Sdw−−−√ 是平方根；
超参数叫做 β2 是为了和momentum算法的超参数 β 区分开来，因为有两个算法的结合算法；
为防止 Sdw−−−√ 出现的接近于0的情况(导致参数变动很大)，一般在 w=w−αdwSdw√ 添加一个很小的数字 ϵ （ ϵ=10−8 ），防止这种情况的发生，即：
$w = w - α d w S d w - - - \sqrt + ϵ$

2.8 Adam 优化算法

Adam：Adaptive Moment Estimation（自适应矩估计）
将momentum和RMSprop结合起来，得到速度更快的优化算法：Adam优化算法；
算法伪代码：
Vdw、Vdb、Sdw、Sdb=0
On iteration t:
    Vdw=β1Vdw+(1−β1)dw、    Vdb=β1Vdb+(1−β1)db     <−−−(momentum)
    Sdw=β2Sdw+(1−β2)(dw)2、Sdw=β2Sdw+(1−β2)(dw)2     <−−−(RMSprop)
     Vcorrecteddw=Vdw / (1−βt1)、Vcorrecteddb=Vdb / (1−βt1)
     Scorrecteddw=Sdw / (1−βt2)、Scorrecteddb=Sdb / (1−βt2)
      w=w−α(VcorrecteddwScorrecteddw√+ϵ)
      b=b−α(VcorrecteddbScorrecteddb√+ϵ)
超参数：
- α ：学习速率
  - 调试，找到较好的值；
- β1 ： dw 的移动加权平均值
  - 0.9（一般情况下）；
- β2 ： dw2 的移动加权平均值
  - 0.999（Adam算法作者推荐）;
- ϵ ：不太重要，不会影响算法的表现
  - 10−8 （Adam算法作者推荐）;
- 一般情况下，人们使用 β1 、 β2 、 ϵ 的缺省值，不断尝试不同的 α 值，寻求比较好的结果。
momentum、RMSprop、Adam是经受住考验的，适用于不同深度学习结构的优化算法；
Adam：Adaptive Moment Estimation（自适应矩估计）叫自适应矩估计的原因：
- Vdw 是 dw ( db )的估计，即对梯度的一阶矩估计，叫做第一矩；
- Sdw 是 dw2 ( db2 )的估计，即对梯度的二阶矩估计，叫做第二矩；
- 第一矩和第二矩根据梯度的变化进行动态调整；
- α 后边的部分对 α 形成动态约束，而且有明确的范围；
优点：
- 对内存需求小；
- 为不同的参数计算不同的自适应学习率；
- 适用于大多数非凸优化；
- 适用于大数据集和高维空间；

2.9 学习率衰减

为什么要计算学习率衰减？

以固定的学习率 α 去学习，在mini batch过程中存在噪声，下降的过程如上图所示，不会精确的收敛到最优解，而是在附近大幅度地振荡。

如果学习率会衰减，在学习初期的时候， α 比较大，学习的速率比较快，随着 α 的减小，步伐也渐渐变慢变小。最后学习曲线在最小值附近的一小块区域内摆动。

使用学习率衰减的原因是：
学习初期可以承受较大的步伐。
到了收敛的阶段，小的学习率可以让步伐变得小一些。

如何进行学习率衰减?

1 epoch = 1 pass through data，即遍历一遍数据集；

第一次遍历数据集，（将数据集分为若干mini batch），为epoch 1；
第二次，为epoch 2；
那么：

α = 1 1 + d e c a y R a t e * e p o c h N u m α 0

学习率衰减的图像大致如下;

α0=0.2	decay rate = 1
epoch	α
1	0.1
2	0.067
3	0.05
4	0.04
。。。	。。。

超参数：
- α
- decay rate
  为了达到比较好的效果，必须尝试不同的值，包括： α 、 decay rate

其他学习率衰减的办法

指数衰减：
$α = 0.95 e p a c h N u m * α 0$
其中，0.95指代一个比1小的数字；
离散下降：
其他方法：

其中，k为常数，t为mini batch的次数；
手动衰减

学习速率衰减可以加快训练的速度；
但在一开始调整模型的超参数的时候，不考虑学习率衰减；
设置一个固定的学习速率，待尝试出一个比较好的模型后，可以用学习速率衰减加快训练。

2.10 局部最优的问题

鞍点

我们提起局部最优，往往想到的是如下图所示：

但梯度为0的点（驻点）不一定是一个局部极小值点，也有可能是鞍点。
往往代价函数梯度为0的点，是鞍点。

尽管梯度为0，但是在一个方向上为极小值点，在另一个方向上为极大值点。

平稳段问题

在碰到鞍点这种情况的时候，鞍点附近为平稳段；
在平稳段，由于梯度接近于0，所以学习的步伐很小；
如图，算法慢慢抵达平稳段的鞍点，然后慢慢走出平稳段，这需要花费很长时间。

在训练较大的神经网络时：

不太可能会陷入一个不太好的局部最优解中（因为参数多，被定义在高纬度空间中，那里充满了鞍点）；
平稳段会使得学习速率变慢（各种优化算法的用武之地，例如Adam，用来加快训练速度，尽快走出平稳段）；

第三周超参数调试、Batch Normalization和程序框架

3.1 超参数调整

超参数重要程度分级

α 最重要；
其次是黄色部分；
最后是紫色部分；

随机

随机尝试超参数，而不是用网格选择超参数；
- 因为并不能提前知道哪一个超参数更重要；比如，选择的两个超参数是 α 和 ϵ ，如下图所示，那么网格法在尝试25组数据后，实际上 α 只尝试了5种数据；而随机选择的话， α 可以尝试25种数据；所以第二种可能下更有可能找到效果最好的那个。
  
  往往一个模型的超参数不止两个，在多个超参数的情况下，我们事先不知道哪个超参数更重要的时候，使用随机的选择超参数的组合，能够探究更多的重要超参数的潜在值。
策略：由粗到细
- 在整个超参数构成的空间随机选取一些点尝试后，发现某些区域能取得更好的成果，那么在该区域进行精细的搜索；

随机取值可以提高对超参数的搜索效率。

3.2 为超参数选择合适的范围

给 α 取值

使用对数尺度。
在Python中的用法：

也就是，如果 α 的范围在 10a 到 10b 之间，那么，r的范围为[a, b]。
在[a, b]的范围内对r进行随机均匀取值。

即， α 取值在对数刻度上随机均匀取值；希望能在每十倍程里边探索的 α 的值一样多。

给 β 取值（给有指数加权平均值的超参数取值）

1−β=10r
β=1−10r

即 β 在0.9-0.99、0.99-0.999之间探索的值一样多。

为什么不用线性轴取值？
当 β 接近于1时，所得结果的灵敏度会发生变化，即使 β 有微小的变化。

需要更加密集的在 β 接近于1的区间内取值。这样才能更有效的分布取样点。
在超参数的选择中，对超参数的标尺做出正确的选择，可以提高效率。
如果标尺总是选择线性标尺，可能就需要取更多的采样点。

3.3 超参数调整的实践：Pandas VS Caviar

随着算法的不断改进、数据的不断变化，运算硬件的升级等，每隔几个月至少一次去重新测试和评估超参数。

超参数调整的两种不同方式(取决于算力大小)：

照看一个模型（babysitting one model）:
- 情景：具有庞大的数据集但算力不够，只可以负担起试验一个模型or一小批模型；
- 做法：随着时间的推移，不断地观察模型的表现，调整其超参数；（之所以这么做，是因为不能在同一时间内试验大量模型）
- 熊猫模式：一胎只生一个，全力照看这一个宝宝。
同时训练多个模型（training many models in parallel）:
- 情景：算力足够；
- 做法：多个模型同时训练，每个模型的超参数不同，观察其表现，择优录取；
- 鱼子模式：鱼每次产卵一亿个，但不会多照料其中的某一个鱼子，一视同仁。只是希望这一堆鱼子里边，能有一个或者一部分表现出色，变成鱼宝宝。

3.4 batch normalization(归一化网络的激活函数)

优点：

使超参数搜索变容易；
使NN对超参数的选择更加稳定；
超参数的范围更庞大；
超参数的效果更好；
很容易训练网络甚至是深层网络；

normalizing inputs to speed up learning

对于逻辑回归，归一化输入，可以加速训练 w、b 。
X(i) 2 即 X 中的每一个元素的平方，即点积。

那么，对于深层网络，可不可以归一化每层网络的激活函数的输出值 a[l] ，来加速训练 w[l+1]、b[l+1] ？

严格来说，我们归一化的是 z[l] ，而不是 a[l] 。
学术界对归一化 z[l] 还是 a[l] 有争论。
但此处，我们学习归一化 z[l] 。
batch norm就是将归一化过程从输入层推广到了隐藏层。使得隐藏层单元值的均值和方差标准化，或者取得想要的均值和方差。

实现Batch Norm

Given some intermediate values in NN :z[l](1)、...、z[l](m)
μ=1m∑iz[l](i)
σ2=1m∑i(z[l](i)−μ)2
z[l](i)norm=z[l](1)−μσ2+ϵ√
z˜[l](i)=γz[l](i)norm+β
usez˜[l](i) instend of z[l](i)
其中， γ、β 为模型的learnable parameters。

参数 γ、β 的意义在于，给出任意均值和方差的 z 。
比如，如果隐藏层使用的是sigmoid激活函数，那么，我们需要的输入可能就不是均值为0，方差为1的输入数据。

β 不是momentum、adam、rms prop算法中的超参数，此处仅为BN的参数。

3.5 将 Batch Norm加入到神经网络

BN加入到神经网络

在反向传播更新 β、γ 的时候，可以使用梯度下降，也可以使用其他优化算法。
在深度学习框架中，不用自己去实现BN。已经有了现成的框架可以实现。
比如在tensorflow中，使用：tf.nn.batch_normalization()
虽然不用实现细节，但是必须了解原理。

BN working with mini-batches

实践中，BN往往和训练集的mini-batch一起使用。

第一批数据进入NN；
反向传播，更新网络参数 w[l]、β[l]、γ[l] （没有 b[l] ）;
第二批数据进入NN（使用上次的NN参数）；
反向传播，更新网络参数 w[l]、β[l]、γ[l] （没有 b[l] ）;
第三批数据进入NN（使用上次的NN参数）；

直到收敛。

网络的参数为： w[l]、β[l]、γ[l] 。

为什么没有 b[l] ？
因为BN的过程，先是把数据的均值转换成0。再利用训练出来的参数 β 给数据新的均值。那么，原始数据的参数 b[l] 不管如何取值，都会在均值转换成0这一步消掉。也就是，有没有 b[l] ，都不会影响到最后的 Z~[i] 。
如果输入数据 X{t} (第t批数据)为(n,m)，那么，
- Z[1] 为 (n[1]、m) —–> Z[l] 为 (n[l]、m) ；
- w[l] 为 (n[l]、n[l−1]) ；
- β[l] 和 γ[l] 为 (n[l]、1) (Python的广播机制)；
  
  图中 Z[l] 为 (n[l]、1) 的原因是输入的数据个数为1。

实现带BN的梯度下降：

for t = 1 ...... num of mini_batches：
     compute forward prop on X{t}：
          in each hidden layer, use BN to replace Z[l]  with  Z~[l]；
     use back prop to compute dw[l]、dβ[l]、dγ[l]；
     update parameters w[l]=w[l]−αdw[l]、β[l]=β[l]−αdβ[l]、γ[l]=γ[l]−αdγ[l]；

参数更新这一步，可以使用各种优化算法。

3.6 Batch Norm 为什么奏效？

感性的理解，貌似BN是将输入数据归一化这一技巧用到了所有的隐藏层，而输入数据归一化的好处就是能加速网络的训练，但是其实，BN之所以有效，还有更深层次的原因：

1.数据归一化的好处；
- 代价函数变得更加圆，梯度下降的波动减小，加速训练；
- 波动减小，可以选择更大的学习速率 α ;
2.减弱covariate shift 问题；
3.轻微的正则化效果；

covariate shift 问题：

对这个逻辑回归模型
用一个数据集训练网络来找猫。训练集正例的猫都是黑色的。而真正的数据集的正例是各种颜色的猫。
即训练集和验证集（以及测试集）的数据分布不一样。

那么，在左边训练的很好的模型，不能期待它同样在右边也运行的很好。即使真的存在在左右两侧都运行的很好的一个函数。

但你不能期望自己有这么好的运气。
这种问题，就叫做covariate shift 。

covariate shift 问题：
- 在这个单层的网络或者逻辑回归模型中，训练集和验证集（以及测试集）的数据分布不一致。在训练集上训练出来的模型无法在验证集（以及测试集）上取得良好的效果。我们把训练集和验证集（以及测试集）的数据样本分布不一致的问题叫做covariate shift （协方差漂移）[非正确概念]

上边这个概念其实是有些错误的，再加以延伸：

上图有一个深层的网络，如果我们单看中间的第三层，在该层之前的前一层的输出 a[2]1 、…、 a[2]4 作为它的输入。
那么，蓝色部分的参数 w[l] 、 b[l] 由于参数更新而发生了变化，在发生变化后的网络中输入数据，最后得到的新的 a[2]1 、…、 a[2]4 可能和参数更新前的分布不一致。
或者说，在参数 w[l] 、 b[l] 更新前后，算出来的 a[2]1 、…、 a[2]4 的分布可能不一致（方差不同，均值不同）。
不同分布的 a[2]1 、…、 a[2]4 在输入后半部分以后，必然引起不同的结果。
这就是covariate shift 问题。

为什么covariate shift 问题对神经网络来说是个问题？
- 对每一层而言，参数更新后，该层的输入分布就有可能发生变化。层层叠加后，输入分布变化的非常大，后边的隐层需要不断地去重新适应这些变化。神经网络没有一个坚实的基础来训练数据。训练一个网络的难度大。

减弱covariate shift

也就是说，由于BN的存在，从某一个隐层看过来，前边的神经网络部分给该隐层的输入虽然会不断的发生变化（因为前边的神经网络的参数在不断的更新），但是，对该隐层而言，输入值的分布（均值、方差）保持不变。这个均值和方差要么是0和1，要么是由 γ 和 β 决定。
BN限制了前层参数更新对数值分布影响的程度。
BN减少了输入值（对每一层而言）分布改变的问题。使得这些值变得稳定。即使这些值的分布发生变化，也是较小的变化。
BN减弱了前层参数和后层参数的作用之间的联系。使得每一层都可以自己学习，稍稍独立于其他层。有助于加速整个网络的学习。

BN的轻微正则化

每一次计算均值和方差都是在一个mini batch上进行，而不是整个数据集。这样计算出来的 z~[l] 会有噪声。所以，会对每一个隐藏层的激活函数添加噪声进去。这迫使后层的单元不过分依赖任何一个隐藏单元。类似于dropout，这种由在mini batch上计算均值和误差的方式会加入噪声，从而达到轻微的正则化效果。
算是BN的一个副作用。有时候，会期望这种副作用，有时候又要避免。
这种轻微正则化会随着mini batch的size的增大而减小。比如，mini batch为128的数据集，就比为512的数据集的正则化作用明显。

在训练集上，BN一次只能处理一个mini batch的数据。在一个mini batch上计算均值和方差。
而验证集和测试集不会去分mini batch。这时候BN怎么work呢？

3.7 测试时的 Batch Norm

测试的时候，没有mini batch，而测试集数据又是一个一个喂给模型的，没有 μ 和 σ2 ，这个时候， μ 和 σ2 从哪里来？
容易想到的是，用整个训练集数据去计算一个 μ 和 σ2 ；
但更好的办法是，使用训练集数据在mini batch过程中计算出来的 μ 和 σ2 的移动加权平均值。

3.8 Softmax 回归

关键词：softmax层，softmax激活函数
从二分类到多分类，从logistic回归推广到softmax回归。
注意：

如果是只有输入层到输出层，没有隐藏层，那么这是softmax回归。
如果是在一个具有隐藏层的神经网络最后加入了一层，该层使用softmax激活函数，那么这是给神经网络加入softmax层。

现在是一个四分类的问题，输出层为4个值，要将其变成概率。
加入一个Softmax层，其激活函数为 a[L]=g[L](Z[L]) ：
- t=e(Z[L])
- a[L]=t∑4jtj ，那么， a[L]i=ti∑4jtj
  或者写成：
  $a [L] = e ( Z [ L ] ) \sum 4 j e ( Z [ L ] ) j$
  softmax激活函数和其他激活函数不同，
其他激活函数的输入输出都是数值，softmax激活函数输入输出都是向量。

上图是使用没有隐藏层的一个神经网络，即输入层，输出层，然后经过softmax层。就是logistic回归的一般形式。因为没有引入隐藏层，整个决策边界都是线性决策边界。

以上为给一个多分类的神经网络加入softmax层，让其输出变成概率值。

在没有加入隐藏层的情况下，有logistics回归以及其升级版的softmax回归。
学习吴恩达ufldl的softmax回归

3.9 训练一个 Softmax 分类器

hard vs soft

softmax是相对于hardmax的一个说法；
对一个向量：

所谓hardmax：

即在对应原向量最大元素的位置上放置1，其他位置为0；

所谓softmax：

成了概率值，这四个元素之和为1；
最大概率值对应的就是原始向量的最大值；

相对于hard max，soft max所做的从向量 z 到最终概率的映射更为温和；

理解softmax回归

softmax回归是将logistics回归从二分类问题推广到了多分类问题：

如果使用softmax来解决二分类问题，那么这就等同于一个logistics回归模型；而且是一个冗余的logistics回归模型；其代价函数、假设函数都一致。但此时，logistics regression的输出层只需要一个单元，而softmax需要两个单元。产生了冗余。

多个类别的分类问题；

如果这些类别之间互斥，用softmax regression；
如果类别之间不是互斥的，用多个logistics regression；

损失函数loss function

也就是，要让损失函数 L(y^,y) 最小，在上图中，就必须让正确的标签值 y2 所对应的预测概率 y^2 尽可能的大。

代价函数cost function

3.10 深度学习框架

你可能感兴趣的:(机器学习,深度学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb

吴恩达深度学习课程笔记（二）：改善深层神经网络

吴恩达深度学习课程笔记（二）：改善深层神经网络

第一周 深度学习的实用层面

1.1 训练 / 开发 / 测试集

1.2 偏差 / 方差

1.3 机器学习基础

1.4 正则化

1.5 为什么正则化可以减少过拟合？

1.6 Dropout 正则化

1.7 理解 Dropout

1.8 其他正则化方法

1.9 归一化输入

1.10 梯度消失与梯度爆炸

1.11 神经网络的权重初始化

1.12 梯度的数值逼近

1.13 梯度检验

1.14 关于梯度检验实现过程中的注意事项

第二周 优化算法

2.1 Mini-batch 梯度下降法

2.2 理解 mini-batch 梯度下降法

选择mini-batch size：

选择mini batch size 的指导原则

2.3 指数加权平均

2.4 理解指数加权平均

2.5 指数加权平均的偏差修正

2.6 动量梯度下降法Gradient descent with momentum

标准梯度下降的缺点：

momentum 梯度下降：

2.7 RMSprop

2.8 Adam 优化算法

2.9 学习率衰减

为什么要计算学习率衰减？

如何进行学习率衰减?

其他学习率衰减的办法

2.10 局部最优的问题

鞍点

平稳段问题

第三周 超参数调试、Batch Normalization和程序框架

3.1 超参数调整

超参数重要程度分级

随机

3.2 为超参数选择合适的范围

给 α α 取值

给 β β 取值（给有指数加权平均值的超参数取值）

3.3 超参数调整的实践：Pandas VS Caviar

3.4 batch normalization(归一化网络的激活函数)

优点：

normalizing inputs to speed up learning

实现Batch Norm

3.5 将 Batch Norm加入到神经网络

BN加入到神经网络

BN working with mini-batches

实现带BN的梯度下降：

3.6 Batch Norm 为什么奏效？

covariate shift 问题：

减弱covariate shift

BN的轻微正则化

3.7 测试时的 Batch Norm

3.8 Softmax 回归

3.9 训练一个 Softmax 分类器

hard vs soft

理解softmax回归

损失函数loss function

代价函数cost function

3.10 深度学习框架

你可能感兴趣的:(机器学习,深度学习)

第一周深度学习的实用层面

第二周优化算法

第三周超参数调试、Batch Normalization和程序框架

给 α 取值

给 β 取值（给有指数加权平均值的超参数取值）