Le0v1n

优化函数和损失函数的区别与联系

一直搞不清楚损失函数和优化函数的区别，现在我们对它们俩进行分析。

1. 损失函数

在机器学习中，损失函数是代价函数的一部分，而代价函数则是目标函数的一种类型。

Loss function，即损失函数：用于定义单个训练样本与真实值之间的误差；
Cost function，即代价函数：用于定义单个批次/整个训练集样本与真实值之间的误差；
Objective function，即目标函数：泛指任意可以被优化的函数。

损失函数是用于衡量模型所作出的预测离真实值（Ground Truth）之间的偏离程度。通常，我们都会最小化目标函数，最常用的算法便是“梯度下降法”（Gradient Descent）。

俗话说，任何事情必然有它的两面性，因此，并没有一种万能的损失函数能够适用于所有的机器学习任务，所以在这里我们需要知道每一种损失函数的优点和局限性，才能更好的利用它们去解决实际的问题。损失函数大致可分为两种：

回归损失（针对连续型变量）
分类损失（针对离散型变量）

1.1 回归损失(Regression Loss)

1.1.1 L1 Loss

L1 Loss也称为Mean Absolute Error，即平均绝对误差（MAE），它衡量的是预测值与真实值之间距离的平均误差幅度，作用范围为 $+\infty]$ 。

$L_1= \sum^n_{i=1}|y_i-f(x_i)|$

$\frac{\mathrm{d}L_1(x)}{\mathrm{d}x}= \begin{cases} 1, & x\ge0 \\ -1, & \mathrm{otherwise} \end{cases}$

优点：对离群点（Outliers）或者异常值更具有鲁棒性。

缺点：由图可知其在0点处的导数不连续，使得求解效率低下，导致收敛速度慢；而对于较小的损失值，其梯度也同其他区间损失值的梯度一样大，所以不利于网络的学习。

1.1.2 L2 Loss

L2 Loss也称为Mean Squred Error，即均方差（MSE），它衡量的是预测值与真实值之间距离的平方和，作用范围同为 $+\infty]$ 。
$L_2 = \sum^n_{i=1}(y_i-f(x_i))^2$
$\frac{\mathrm{d}L_2(x)}{\mathrm{d}x}= 2x$
优点：收敛速度快，能够对梯度给予合适的惩罚权重，而不是“一视同仁”，使梯度更新的方向可以更加精确。

缺点：对异常值十分敏感，梯度更新的方向很容易受离群点所主导，不具备鲁棒性。

对于L1范数和L2范数，如果异常值对于实际业务非常重要，我们可以使用MSE作为我们的损失函数；另一方面，如果异常值仅仅表示损坏的数据，那我们应该选择MAE作为损失函数。此外，考虑到收敛速度，在大多数的卷积神经网络中（CNN）中，我们通常会选择L2损失。
因为这个差异要被平方放大，所以就会表现出越小的距离（ $-1\le x\le1$ ），对于大的平方后就会放大。

1.1.3 Smooth L1 Loss

Smooth L1 Loss即为平滑的L1损失（SLL），出自Fast RCNN。SLL通过综合L1和L2损失的优点，在0点处附近采用了L2损失中的平方函数，解决了L1损失在0点处梯度不可导的问题，使其更加平滑易于收敛。此外，在 $∣ x ∣ > 1$ 的区间上，它又采用了L1损失中的线性函数，使得梯度能够快速下降。
$\mathrm{smooth_{L_1}}(x)= \begin{cases} 0.5x^2,&|x|<1 \\ |x|-0.5,&\mathrm{otherwise} \end{cases}$
$\frac{\mathrm{d \ smooth_{L_1}}}{\mathrm{d}x} = \begin{cases} x, & |x|<1 \\ ±1, & \mathrm{otherwise} \end{cases}$

通过对这三个损失函数进行求导可以发现，L1损失的导数为常数，如果不及时调整学习率，那么当值过小时，会导致模型很难收敛到一个较高的精度，而是趋向于一个固定值附近波动。反过来，对于L2损失来说，由于在训练初期值较大时，其导数值也会相应较大，导致训练不稳定。最后，可以发现Smooth L1在训练初期输入数值较大时能够较为稳定在某一个数值，而在后期趋向于收敛时也能够加速梯度的回传，很好的解决了前面两者所存在的问题。

L₁：趋向于一个固定值附近波动
L₂：训练不稳定
Smooth L1：很好的解决了前面两者所存在的问题

1.2 分类损失

1.2.1 Entropy —— 熵的概念

Entropy即为“熵”，熵的概念最早起源于物理学，用于度量一个热力学系统的无序程度。但更常见的，在信息论里面， 熵是用于描述对不确定性的度量。所以，这个概念可以延伸到深度神经网络中，比如我们的模型在做分类时，其实也是在做一个判断一个物体到底是不是属于某个类别。因此，在正式介绍分类损失函数时，我们必须先了解熵的概念。

数字化时代，信息都是由bit(0和1)组成的。在通信时，有些位是有用（useful）的信息，有些位则是冗余（redundant）的信息，有些位甚至是错误（error）的信息，等等。当我们传达信息时，我们希望尽可能多地向接收者传递有用的信息。

传输1比特的信息意味着将接收者的不确定性降低2倍。 —— 香农

如何理解香农的这句话，1bit意味着只有两种情况。对于一件事情发的概率，加入只有两种情况：

发生了

没有发生

那么我们的猜对的概率就是50%，也就是不确定性有50%。

这时如果传输过来1bit的数据，那么这意味着这件事情的概率我们是已知的，即事情的不确定性从50%降低为了0%，确定性从原来的50%上升到100%，100% / 50%=2，即我们的确定性上升了2倍，也就意味着不确定性降低了2倍。

下面以一个天气预报的例子为例，形象化的讲解熵到底尤为何物？假设一个地方的天气是随机的，每天有50%的机会是晴天或雨天。

现在，如果气象站告诉您明天将要下雨，那么这个消息将不确定性降低了2倍。

这里和香农的那句话是一个道理

起初，有两种同样可能的可能性，但是在收到气象站的更新信息后，我们只有一种。在这里，气象站向我们发送了一点有用的信息，无论他们如何编码这些信息，这都是事实。即使发送的消息是雨天的，每个字符占一个字节，消息的总大小为40位，但它们仍然只通信1位的有用信息。

现在，我们假设天气有8种可能状态，且都是等可能的。

那么，当气象站为您提供第二天的天气时，它们会将您的不确定性降低了8倍（告诉了我们明天会下雨，所以下雨成了一个确定性的概率1）。由于每个事件的发生几率为1/8，因此降低因子为8。

但如果这些可能性不是等概率的呢？比如，75%的机会是晴天，25%的机会是雨天。

现在，如果气象台说第二天会下雨，那么你的不确定性就降低了4倍，也就是2比特的信息。

不确定性的减少就是事件概率的倒数（因为一个事件发生的概率被确定为1，那么不发生的概率就确定为0）。

在这种情况下，25%的倒数是4， $log_24=2$ 。因此，我们得到了2bit有用的信息。

这个有用信息是一个固定公式计算得到的，这里不用纠结。

如果气象站说第二天是晴天，那么不确定性就降低了 $\frac{1}{0.75}$ ，那么我们得到 $\log_2\frac{1}{0.75}=0.4150$ bit的有用信息。

那么，我们平均能从气象站得到多少信息呢？明天是晴天的概率是75%这就给了你0.41比特的信息而明天是雨天的概率是25%这就给了你2比特的信息，这就对应我们平均每天从气象站得到0.81比特的信息，计算如下图：

我们刚刚所计算出来的就叫做熵(Entropy)，它可以很好地描述事件的不确定性。它是由以下公式给出：
$\mathrm{Entropy}, H(p) = - \sum p(i) * \log(p(i))$

它衡量的是你每天了解天气情况时所得到的平均信息量。一般来说，它给出了给定概率分布 $p$ 中样本值的平均信息量，并且它还会告诉我们概率分布有多不可预测。

如果我们住在沙漠中央，那里每天都是阳光灿烂的，平均来说，我们不会每天从气象站得到很多信息，熵会接近于零。另一方面，如果天气变化很大，熵就会大得多。

意思就是说，如果一个事件可预测性很低，那么给这个事件一个确定性，则这个确定性会携带大量的信息量。
就好比，1+1=2，这件事情所包含的信息量是0，因为它对于每个人来说，1+1就是等于2，你杠你说的对。

总的来说：

一个事件的不确定性就越大，其信息量越大，它的熵值就越高；
相反，如果一个事件的不确定性越小，其信息量越小，它的熵值就越低。

1.2.2 Cross Entropy —— 交叉熵

现在，让我们讨论一下交叉熵。它指的是平均信息长度。考虑同样的例子，8种可能的天气条件，所有都是等可能的，每一种都可以用3位编码即 $2^3=8$ 。

这里的平均信息长度是3，这就是交叉熵。

现在，假设你住在一个阳光充足的地区，那里的天气概率分布是这样的：

即每天有35%的机会出现晴天，只有1%的机会出现雷雨。我们可以计算这个概率分布的熵，我们得到2.23bits的熵，具体计算公式如下：

$\begin{aligned} \mathrm{Entropy}, H(p) & = - \sum p(i) * \log(p(i)) \\ & = -( 0.35 \times \log0.35 + 0.35 \times \log0.35 + 0.1 \times \log0.1 + 0.1 \times \log0.1 +\\& 0.04 \times \log0.04 + 0.04 \times \log0.04 + 0.01 \times \log0.01 + 0.01 \times \log0.01 ) \\ & =2.23 \ \mathrm{bit} \end{aligned}$
所以，平均来说，气象站发送了3个bits，但接收者只得到2.23个bits有用的信息。

我们可以做得更好，例如更改编码方式：

现在，我们只使用2bit用于表示晴天或部分晴天，使用3bit用于多云和大部分多云，使用4bit用于表示中雨和小雨，使用5bit用于大雨和雷暴。天气的编码方式是明确的，并且如果你链接多条消息，则只有一种方法可以解释位的顺序。例如，01100只能表示部分晴天（01），然后是小雨（100）。因此，如果我们计算该站每天发送的平均比特数，则可以得出：
$\begin{aligned} \mathrm{Entropy}, H(p) & = - \sum p(i) * \log(p(i)) \\ & = -( 0.35 \times \log4 + 0.35 \times \log4 + 0.1 \times \log8 + 0.1 \times \log8 +\\ & 0.04 \times \log16 + 0.04 \times \log16 + 0.01 \times \log32 + 0.01 \times \log32 ) \\ & = 0.35 \times2 + 0.35 \times 2+ 0.1 \times 3 + 0.1 \times 3 +\\ & 0.04 \times 4 + 0.04 \times 4 + 0.01 \times 5 + 0.01 \times 5 \\ & = 2.42 \ \mathrm{bit} \end{aligned}$

我们将得到4.58bit。大约是熵的两倍。平均而言，该站发送4.58位，但只有2.23位对接收者有用。 每条消息发送的信息量是必要信息的两倍。这是因为我们使用的编码对天气分布做出了一些隐含的假设。

例如，当我们在晴天使用2bit消息时，我们隐式地预测晴天的概率为25％。以同样的方式，我们计算所有天气情况：

分母中2的幂对应于用于传输消息的比特数。很明显，预测分布 $q$ 和 真实分布 $p$ 有很大不同。现在我们可以把交叉熵表示成真实概率分布 $p$ 的函数和预测概率分布 $q$ 的函数：
$\mathrm{Entropy}, H(p,q) = - \sum p(i) * \log(q(i))$

log的底数为2

1.2.3 K-L Divergence

K-L Divergence即KL散度。对于交叉熵损失，除了我们在这里使用预测概率的对数 $\log(q(i))$ 外，它看起来与上面熵的方程非常相似。如果我们的预测是完美的，那就是预测分布等于真实分布，此时交叉熵就等于熵。但是，如果分布不同，则交叉熵将比熵大一些位数。交叉熵超过熵的量称为相对熵，或更普遍地称为库尔贝克-莱布里埃发散度（KL Divergence）。

K-L散度是衡量预测分布和真实分布之间的差异

总结如下：
$\mathrm{CrossEntropy} = \mathrm{Entropy + KL - Divergence}$
$\begin{aligned} \\ D_{KL}(p||q) & = H(p, q) - H(p) \\ & = -\sum_i p_i \log(q_i)-(-\sum_i p_i \log(p_i)) \\ & = -\sum_i p_i \log(q_i)+ \sum_i p_i \log(p_i) \\ & = \sum_i p_i \log\frac{p_i}{q_i} \end{aligned}$
接上面的例子，我们便可以顺便算出： KL散度 = 交叉熵 - 熵 = 4.58 - 2.23 = 2.35（Bits）。

1.2.3.1 KL散度的意义

在统计学意义上来说，KL散度可以用来衡量两个分布之间的差异程度。

若两者差异越小，KL散度越小，反之亦反。
当两分布一致时，其KL散度为0。

通常来说，一般分类损失最常用的损失函数之一便是交叉熵损失。
假设我们当前做一个3个类别的图像分类任务，如猫、狗、猪。给定一张输入图片其真实类别是猫，模型通过训练用Softmax分类后的输出结果为：｛“cat”: 0.3, “dog”: 0.45, “pig”: 0.25｝，那么此时交叉熵为：
$\mathrm{Entropy}, H(p,q) = - \sum p(i) * \log(q(i)) \\ = -1 \times \log(0.3) = 1.203$

当输出结果为：｛“cat”: 0.5, “dog”: 0.3, “pig”: 0.2｝时，交叉熵为：
$\mathrm{Entropy}, H(p,q) = - \sum p(i) * \log(q(i)) \\ = -1 \times \log(0.5) = 0.301$

可以发现，

当真实类别的预测概率接近于0时，损失会变得非常大。
但是当预测值接近真实值（1）时，损失将接近0。

这也就是为什么要使用交叉熵作为损失函数，原因有二：

对于神经网络来说，计算损失时需要用到两个数：
1. 模型的预测值和
2. 数据的真实值（标签）。而交叉熵有 $p$ 和 $q$ ，这是非常符合这一规则的。
当预测概率与Ground Truth越远时，损失越大；
当预测概率与Ground Truth越近时，损失越小。
这也与损失函数的初衷是类似的——给神经网络奖赏/惩罚。

1.2.4 Dice Loss

Dice Loss即骰子损失，它是一种用于评估两个样本之间相似性度量的函数，取值范围为 $[0, 1]$ ，值越大表示两个值的相似度越高(和余弦相似性是类似的)，其基本定义（二分类）如下：
$L_{\mathrm{dice}} = 1 - \frac{2 \cdot |X \cap Y|}{|X| - |Y|} = 1 - \frac{2 \cdot TP}{2 \cdot TP + FP + FN}$

其中， $∣ X \cap Y ∣$ 表示 $X$ 和 $Y$ 之间的交集， $∣ X ∣$ 和 $∣ Y ∣$ 分别表示集合 $X$ 和 $Y$ 中像素点的个数，分子乘于2保证值域范围在 $[0, 1]$ 之间，因为分母相加时会计算多一次重叠区间，如下图

从右边公式也可以看出，其实Dice系数是等价于F1分数的，优化Dice等价于优化F1值，F1计算如下：
$F_1 = 2 \frac{PR}{P + R}$

此外，为了防止dice loss的分母项为0，一般我们会在分子和分母处同时加入一个很小的数作为平滑系数，也称为拉普拉斯平滑项。Dice损失由以下两个主要特性：

有益于正负样本不均衡的情况，侧重于对前景的挖掘；
训练过程中，在有较多小目标的情况下容易出现振荡；
极端情况下会出现梯度饱和的情况。

所以一般来说，我们都会结合交叉熵损失或者其他分类损失一同进行优化。

1.2.5 Focal Loss

Focal Loss（焦点损失），出自何凯明的《Focal Loss for Dense Object Detection》，出发点是解决目标检测领域中one-stage算法如YOLO系列算法准确率不高的问题。作者认为样本的类别不均衡（比如前景和背景）是导致这个问题的主要原因。

比如在很多输入图片中，我们利用网格去划分小窗口，大多数的窗口是不包含目标的。如此一来，如果我们直接运用原始的交叉熵损失，那么负样本所占比例会非常大，主导梯度的优化方向，即网络会偏向于将前景预测为背景。即使我们可以使用OHEM（在线困难样本挖掘）算法来处理不均衡的问题，虽然其增加了误分类样本的权重，但也容易忽略掉易分类样本。

而Focal loss则是聚焦于训练一个困难样本的稀疏集，通过直接在标准的交叉熵损失基础上做改进，引进了两个惩罚因子，来减少易分类样本的权重，使得模型在训练过程中更专注于困难样本。其Focal Loss (FL)基本定义如下：
$\mathrm{FL}(p, \hat{p}) = -( \alpha(1-\hat{p})^\gamma p \log(\hat{p}) + (1-\alpha)\hat{p}^{\gamma}(1-p)\log(1-\hat{p}) )$

其中：

参数 $\alpha$ 和 $(1 - α)$ 分别用于控制正/负样本的比例，其取值范围为 [0, 1] 。
$α$ 的取值一般可通过交叉验证来选择合适的值。
交叉验证的意思就是对其作对比实验以人为的确定一个好的值。
参数 $\gamma$ 称为聚焦参数，其取值范围为 $[0, + \infty)$ ，目的是通过减少易分类样本的权重，从而使模型在训练时更专注于困难样本。
当 $\gamma = 0$ 时，Focal Loss就退化为交叉熵损失， $\gamma$ 越大，对易分类样本的惩罚力度就越大。

实验中，作者取 $α = 0.25, γ = 0.2$ 的效果最好，具体还需要根据任务的情况调整。

由此可见，Focal Loss引入两个超参数需要调整，而一般来说很需要经验才能调好。

1.2.6 Tversky loss

Tversky loss，特沃斯基损失，发表于CVPR 2018上的一篇《Tversky loss function for image segmentation using 3D fully convolutional deep networks》文章，是根据 Tversky 等人于1997年发表的《Features of Similarity》文章所提出的Tversky指数所改造的。Tversky系数主要用于描述两个特征（集合）之间的相似度，其定义如下：
$\frac{|A \cap B|}{|A \cap B| + \alpha|A-B| + \beta|B-A|}$

由上可知，它是结合了Dice系数（F1-score）以及Jaccard系数（IoU）的一种广义形式，如：

当 $α = β = 0.5$ 时，此时Tversky loss便退化为Dice系数（分子分母同乘于2）
当 $α = β = 1$ 时，此时Tversky loss便退化为Jaccard系数（交并比）

因此，我们只需控制 $\alpha$ 和 $\beta$ 便可以控制假阴性(FN)和假阳性(FP)之间的平衡。

比如在医学领域我们要检测肿瘤时，更多时候我们是希望Recall值（查全率，也称为灵敏度或召回率）更高，因为我们不希望说将肿瘤检测为非肿瘤，即假阴性。因此，我们可以通过增大 $\beta$ 的取值，来提高网络对肿瘤检测的灵敏度。其中， α + β 的取值我们一般会令其1。

1.2.6.1 Jaccard系数

给定两个集合A,B，Jaccard 系数定义为A与B交集的大小与A与B并集的大小的比值，定义如下：
$\frac{|A \cap B|}{|A \cup B|} = \frac{|A \cap B|}{|A| + |B| - |A \cap B|}$
当集合A，B都为空时， $J (A, B)$ 定义为1。

与Jaccard 系数相关的指标叫做 Jaccard 距离，用于描述集合之间的不相似度。Jaccard 距离越大，样本相似度越低。公式定义如下：
$d_j(A, B) = 1 - J(A, B) = \frac{|A \cup B| - |A \cap B|}{|A \cup B|} = \frac{A \Delta B}{|A \cup B|}$
其中对称差（symmetric difference） $\Delta B = |A \cup B| - |A \cap B|$ 。

1.2.6.2 Jaccard系数的性质

$\in [0, 1]$

1.2.7 总结

总的来说，损失函数的形式千变万化，但追究溯源还是万变不离其宗。其本质便是给出一个能较全面合理的描述两个特征或集合之间的相似性度量或距离度量，针对某些特定的情况，如类别不平衡等，给予适当的惩罚因子进行权重的加减。大多数的损失都是基于最原始的损失一步步改进的，或提出更一般的形式，或提出更加具体实例化的形式。

2. 优化函数

定义：在利用损失函数（Loss Function）计算出模型的损失值之后，接下来需要利用损失值进行模型参数的优化，这个过程使用的函数就是优化函数。

模型内部有些参数，是用来计算测试集中目标值 $Y$ 的真实值和预测值 $\hat Y$ 的偏差程度的，基于这些参数，就形成了损失函数 $J (x)$ 。
比如说，权重( $W$ )和偏差( $b$ )就是这样的内部参数，一般用于计算输出值，在训练神经网络模型时起到主要作用。

在有效地训练模型并产生准确结果时，模型的内部参数起到了非常重要的作用。这也是为什么我们应该用各种优化策略和算法，来更新和计算影响模型训练和模型输出的网络参数，使其逼近或达到最优值。

在实践操作最常用到的是一阶优化函数。包括

GD
SGD
BGD
Adam
…

一阶优化函数在优化过程中求解的是参数的一阶导数，这些一阶导数的值就是模型中参数的微调值。

2.1 梯度下降（Gradient Descent）

2.1.1 GD的定义

梯度下降（Gradient Descent）是参数优化的基础方法。虽然已广泛应用，但是其自身存在许多不足，所以在其基础上改进的优化函数也非常多。

2.1.2 GD梯度更新梯度

全局梯度下降的参数更新公式如下：
$\theta_j = \theta_j - \eta \times \frac{\partial J(\theta_j)}{\partial \theta_j}$

其中， $\theta$ 为需要更新的参数，训练样本总数为 $n$ ， $j = 0, 1, 2, . . ., n$ 是我们优化的参数对象， $\eta$ 是学习速率， $J(\theta)$ 是损失函数， $\frac{\partial J(\theta_j)}{\partial \theta_j}$ 是根据损失函数 $J(\theta_j)$ 来计算 $\theta$ 的梯度。

2.1.3 学习率对GD的影响

学习速率过快，参数的更新跨步就会变大，极易出现局部最优和抖动。
学习率过慢，梯度更新的迭代次数就会增加，参数更新时间也会变长。

2.1.4 GD的缺点

计算损失值的时间成本和模型训练过程中的复杂度呈正相关 -> 模型越复杂，求梯度所花费时间越长。

2.2 批量梯度下降（Batch Gradient Descent）

2.2.1 BGD梯度更新公式

假设划分出来的batch size为 $m$ （即 $j\in[0, m-1]$ ），其中的一个batch包含batch size个数据样本，那么一个batch的梯度下降的参数更新公式如下：
$\theta_j = \theta_j - \eta \times \frac{\partial J_{\mathrm{batch}}(\theta_j)}{\partial \theta_j}$

2.2.2 BGD的缺点

容易导致优化函数的最终结果是局部最优解。

2.2.3 BGD与GD的区别

前者可以看成是batch_size = 1的Batch GD

2.3 随机梯度下降（Stochastic Gradient Descent）

2.3.1 SGD梯度更新公式

假设我们随机选取的一部分数据集包含stochastic（随机的）个数据样本，那么随机梯度下降的参数更新公式如下：

$\theta_j = \theta_j - \eta \times \frac{\partial J_{\mathrm{stochastic}}(\theta_j)}{\partial \theta_j}$

随机梯度下降算法和批量梯度下降的不同点在于其梯度是根据随机选取的训练集样本来决定的，其每次对 $\theta$ 的更新，都是针对单个样本数据，并没有遍历完整的参数。 当样本数据很大时，可能到迭代完成，也只不过遍历了样本中的一小部分。因此，其速度较快，但是其每次的优化方向不一定是全局最优的，最终的结果是在全局最优解的附近。

虽然BGD可以让参数达到全局最低点并且停止，而SGD可能会让参数达到局部最优，但是仍然会波动，甚至在训练过程中让参数会朝一个更好的更有潜力的方向更新。众多的实验表明，当我们逐渐减少学习速率时，SGD和BGD会达到一样的全局最优点。

2.3.2 SGD的优点

训练速度快,避免了BGD更新过程中的计算冗余问题，对于很大的数据集，也能够以较快的速度收敛。

2.3.3 SGD的缺点

由于是随机抽取，因此得到的梯度不可避免的存在误差。因此学习速率需要逐渐减小，否则模型无法收敛。
因为误差，所以每一次迭代的梯度受抽样的影响比较大，也就是说梯度含有比较大的噪声,不能很好的反映真实梯度，并且SGD有较高的方差，其波动较大，如下图：

2.3.4 学习率该如何调整？

那么这样一来，学习率 $\eta$ 如何衰减就成了问题。如果要保证SGD收敛，应该满足如下两个要求：

$\sum_{k=1}^{\infty} \eta_k = \infty$
$\sum_{k=1}^{\infty} \eta_k^2 < \infty$

而在实际操作中,一般是进行线性衰减，即：
$\eta_k = (1-\alpha) \eta_0 + \alpha \eta_\tau \\ \alpha = \frac{k}{\tau}$

其中 $\eta_0$ 是初始学习率， $\eta_{\tau}$ 是最后一次迭代的学习率， $\tau$ 自然代表迭代次数。

一般来说， $\eta_\tau$ 设为 $\eta_0$ 的 $1\%$ 比较合适。而 $\tau$ 一般设为让训练集中的每个数据都输入模型上百次比较合适。那么初始学习率 $\eta_0$ 怎么设置呢？书上说,你先用固定的学习速率迭代100次,找出效果最好的学习速率,然后 $\eta_0$ 设为比它大一点就可以了。

另外，需要注意的是因为存在样本选择的随机性，所以在梯度下降过程中会存在较大的噪声，因此学习速率应该要逐渐减小，来寻找一个相对全局最优的方向。

同时也考虑到每次只选择一个样本进行梯度更新存在较大的噪声，学者们开始尝试每次选择一小批样本进行梯度更新，在降低噪声的同时提高速度，因此就有了下面的MBGD（Mini-Batch Gradient Descent）小批量梯度下降法。

2.4 MBGD小批量梯度下降（Mini-Batch Gradient Descent）

为了综合上述两种方法，提出了小批量梯度下降。

2.4.1 MBGD的特性

降低在SGD中高方差的问题，能使得收敛更加稳定
可以利用深度学习中最先进的库进行矩阵优化的操作，加速操作
一般的小批量介于50～256，但是当适用很小的批量时，有时也统称为SGD。

2.4.2 MBGD的核心思想

在每次迭代时考虑一小部分样本，比如考虑10个样本，同时计算在这10个样本点上的每个参数的偏导数，对于每个优化参数，将该参数在这10个样本点的偏导数求和。

但是，需要注意的是因为这里也存在样本选择的随机性，学习速率应该要逐渐减小，同时上述方法并不能保证好的收敛性。

2.4.3 MBGD主要存在的挑战

选择适当的学习率可能很困难。 —— 太小的学习率会导致收敛性缓慢，而学习速度太大可能会妨碍收敛，并导致损失函数在最小点波动。
使用学习率计划：尝试在训练期间调整学习率。比如根据预先制定的规则缓慢的降低学习速率，或者当每次迭代之间的偏导差异已经低于某个阈值时，就降低学习速率。 —— 但是这里面的学习速率更新规则，以及阈值都是需要预先设定的，因此不适应于所有的数据集。
此外，使用梯度更新的方法会导致所有参数都用学习速率更新。 —— 但是当训练集数据是稀疏的，或者特征的频率是不同的，我们可能不希望它们更新到同样的程度，因此使用相同的学习速率会导致那些很少出现的特征有较大的变化。
在求取那些高度非凸的误差函数的最小值时，我们应该避免陷入局部最优解。实验表明，最困难的不是从局部最优而是鞍点。 —— 鞍点就是沿着某一个方向他是稳定的，沿着另一个方向不稳定，既不是最小点也不是最大点。这会使得该点在所有维度上梯度为0，让SGD难以逃脱。

基于上述问题，又有了如下更多的优化策略！

2.5 动量，Momentum

上述SGD和MBGD算法都存在样本选择的随机性，因此含有较多的噪声，而momentum能解决上述噪声问题，尤其在面对小而较多噪声的梯度时，它往往能加速学习速率。

2.5.1 Momentum核心思想

Momentum借用了物理中的动量概念，即前几次的梯度也会参与运算。为了表示动量,引入了一个新的变量 $v$ (velocity，速度)。 $v$ 是之前的梯度的累加，但是每回合都有一定的衰减。

2.5.2 Momentum每步迭代过程

从训练集中的随机抽取一批容量为 $m$ 的样本 ${x_1,…,x_m\}$ ，以及相关的输出 $y_i$
计算梯度和误差，并更新速度 $v$ 和参数 $\theta$ :
$\hat{g} ←+1m\Deltaθ \sum_i L(f(x_i;θ),y_i) \\ v←αv−\eta \hat{g} \\ θ←θ+v$

其中参数 $\alpha$ 表示每回合速率 $v$ 的衰减程度。同时也可以推断得到：如果每次迭代得到的梯度都是 $g$ ,那么最后得到的 $v$ 的稳定值为 $\frac{\eta ||g||}{1-\alpha}$ 。
也就是说，Momentum最好情况下能够将学习速率加速 $\frac{1}{1-\alpha}$ 倍。一般 $\alpha$ 的取值为0.9或者更小。

当然,也可以让 $\alpha$ 的值随着时间而变化：一开始小点，后来再加大。不过这样一来，又会引进新的参数。

2.5.3 Momentum的特点

本质上来说，就和我们把球从山上退下来一样，球的速度会越来越快。和我们的参数更新一样：

当方向一致时，动量项会增加；
当方向不一致时，动量项会降低。

即：

前后梯度方向一致时，能够加速学习
前后梯度方向不一致时，能够抑制震荡

2.6 Nesterov Momentum

仅仅有一个追求速度的球往山下滚是不能令人满意的，我们需要一个球，它能知道往前一步的信息，并且当山坡再次变陡时他能够减速。因此，带有nesterov的出现了！

momentum：

先计算当前的梯度（短蓝色线）
然后结合以前的梯度执行更新（长蓝色线）。

nesterov momentum：

先根据事先计算好的梯度更新（棕色）
然后在预计的点处计算梯度（红色）
结合两者形成真正的更新方向（绿色）。

这是对之前的Momentum的一种改进，大概思路就是，先对参数进行估计（先往前看一步，探路），然后使用估计后的参数来计算误差。

2.6.1 参数

学习速率 $\eta$
初始参数 $\theta$
初始速率 $v$
动量衰减参数 $\alpha$

2.6.2 Nestrov Momentum每步迭代过程

从训练集中的随机抽取一批容量为 $m$ 的样本 ${x_1,…,x_m\}$ ，以及相关的输出 $y_i$
计算梯度和误差,并更新速度 $v$ 和参数 $\theta$
$\hat{g} ←+1m∇θ\sum_i L(f(x_i;θ+αv),y_i) \\ v←αv−\eta \hat{g} \\ θ←θ+v$

注意在估算 $\hat{g}$ 的时候,参数变成了 $θ + α v$ 而不是之前的 $\theta$ 。

2.7 AdaGrad

AdaGrad可以自动变更学习速率，只是需要设定一个全局的学习速率 $\eta$ ，但是这并非是实际学习速率。实际的速率是与以往参数的模之和的开方成反比的。也许说起来有点绕口，不过用公式来表示就直白的多：
$\eta_n = \frac{\eta}{\delta+\sqrt{\sum_{i=1}^{n-1}}g_i \odot g_i}$
其中 $\delta$ 是一个很小的常量，大概在 $10^{-7}$ ,防止出现除以 $0$ 的情况。

2.7.1 AdaGrad核心思想

对于频繁出现的参数使用更小的更新速率，对于不频繁出现的参数使用更大的更新速率。
正因为如此，该优化函数较适用于稀疏的数据，比如在Google从YouTube视频上识别猫时，该优化函数大大提升了SGD的鲁棒性。在训练GloVe词向量时该优化函数更加适用。

2.7.2 AdaGrad参数

全局学习速率 $\eta$
初始参数 $\theta$
数值稳定量 $\delta$
中间变量: 梯度累计量 $r$ (初始化为0)

2.7.3 AdaGrad每步迭代过程

从训练集中的随机抽取一批容量为 $m$ 的样本 ${x_1,…,x_m\}$ ，以及相关的输出 $y_i$
计算梯度和误差，更新 $r$ ,再根据 $r$ 和梯度计算参数更新量

在SGD中，我们对所有参数进行同时更新，这些参数都使用同样的学习速率。比如用 $g_{t,i}$ 表示在 $t$ 时间点，对 $i$ 参数求得的偏导。
$g_{t, i} = \Delta_\theta J(\theta_i)$

那么在SGD中就会用同一个学习速率对 $i$ 参数进行更新：
$\theta_{t+1, i} = \theta_{t, i} - \eta \cdot g_{t, i}$

但是在AdaGrad里，会综合考虑 $i$ 之前的所有梯度值来更新学习速率：
$\theta_{t+1, i} = \theta_{t, i} - \frac{\eta}{\sqrt{G_{t, ii}+\epsilon}} \cdot g_{t, i}$

其中 $G_{t,ii}$ 是一个对角矩阵， $i$ 行 $i$ 列存储了目前时间点为止的所有 $i$ 参数的偏导的平方和。后面的项是一个很小的值（1e−8），为了防止除 $0$ 错误。

2.7.4 AdaGrad优点

能够实现学习率的自动更改。如果这次梯度大,那么学习速率衰减的就快一些；如果这次梯度小,那么学习速率衰减的就慢一些。

2.7.5 AdaGrad缺点

最大的缺点在于分母中那个 $G$ 是偏导的累积，随着时间的推移，分母会不断的变大，最后会使得学习速率变的非常小，而此时会使得模型不再具备学习其他知识的能力。

经验表明，在普通算法中也许效果不错，但在深度学习中，深度过深时会造成训练提前结束。因为它到后面的衰减可能越来越慢，然后就提前结束了。为了解决提前结束的问题，引入了如下的算法：Adadelta, RMSprop。

2.8 AdaDelta

AdaDelta是AdaGrad的延伸，不同于AdaDelta将以前所有的偏导都累加起来，AdaDelta控制了累加的范围到一定的窗口中。
但是，并非简单的将窗口大小设置并且存储，我们是通过下式动态改变的上述的 $G$ ：
$E[g^2]_t = \gamma E[g^2]_{t-1} + (1-\gamma)g_t^2$

这里面的 $\gamma$ 类似于momentum里面的项（ $\alpha$ 通常取值0.9），用来控制更新的权重。

因此以前的：
$\theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{G_t+\epsilon}} \odot g_t$

将被改变为：
$\theta_{t} = - \frac{\eta}{\sqrt{E[g^2]_t+\epsilon}} \ g_t$

2.9 RMSProp

RMSProp通过引入一个衰减系数，让 $r$ 每回合都衰减一定比例，类似于Momentum中的做法。

和Adadelta没啥区别

2.9.1 RMSProp参数

全局学习速率 $\eta$
初始参数 $\theta$
数值稳定量 $\delta$
衰减速率 $\rho$
中间变量: 梯度累计量 $r$ (初始化为0)

2.9.2 RMSProp每步迭代过程

从训练集中的随机抽取一批容量为 $m$ 的样本 ${x_1,…,x_m\}$ ，以及相关的输出 $y_i$
计算梯度和误差，更新 $r$ ,再根据 $r$ 和梯度计算参数更新量
$E[g^2]_t = 0.9E[g^2]_{t-1} + 0.1 g_t^2 \\ \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{E[g^2]_t} + \epsilon}$

算法的提出者建议如上式所示， $\gamma$ 取0.9，学习速率为0.001

2.9.3 RMSProp优点

相比于AdaGrad，这种方法很好的解决了深度学习中过早结束的问题
适合处理非平稳目标，对于RNN效果很好

2.9.4 RMSProp缺点

又引入了新的超参，衰减速率 $\rho$
依然依赖于梯度累计量 $r$ (初始化为0)

2.10 Adam

Adam自适应时刻估计方法（Adaptive Moment Estimation），一个比较智能的优化函数方法。它在模型训练优化的过程中通过让每个参数获得自适应的学习率，来达到优化质量和速度的双重提升。现在一般都选择用这个方法。

Adam(Adaptive Moment Estimation)是另外一种给每个参数计算不同更新速率的方法，其本质上是带有动量项的RMSprop，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。

2.10.1 Adam优点

主要在于经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。它和上述的adadelta和RMSprop一样，都存储了以前的偏导平方衰减平均值，此外，它还存储以前的偏导衰减平均值。

2.10.2 Adam参数

全局学习速率 $\eta$
初始参数 $\theta$
数值稳定量 $\delta$
一阶动量衰减系数 $\rho_1$
二阶动量衰减系数 $\rho_2$

其中几个取值一般为：
$\delta=10^{−8}, \rho_1=0.9, \rho_2=0.999$

中间变量：一阶动量 $s$ ，二阶动量 $r$ 都初始化为0

2.10.3 Adam每步迭代过程

从训练集中的随机抽取一批容量为 $m$ 的样本 ${x_1,…,x_m\}$ ，以及相关的输出 $y_i$
计算梯度和误差,更新 $r$ 和 $s$ ,再根据 $r$ 和 $s$ 以及梯度计算参数更新量
$m_t = \beta_1 m_{t-1} + (1-\beta_1)g_t \\ v_t = \beta_2 v_{t-1} + (1-\beta_2) g_t^2$

其中的 $m_t$ 和 $v_t$ 分别表示平均值角度和非中心方差角度的偏导。
$\begin{aligned} & \hat{m_t} = \frac{m_t}{1-\beta_1^t} \\ & \hat{v_t} = \frac{v_t}{1-\beta_2^t} \\ & \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{\hat{v_t}}+\epsilon}\hat{m_t} \end{aligned}$

Adam作者建议： $\beta_1=0.9, \beta_2=0.999, \epsilon=10^{-8}$ ，并且声称Adam在实践中比其他的自适应算法有更好的表现。

3. 不同优化函数可视化

3.1 速度比较

3.2 在鞍点的性能

3.3 如何选择优化

如果你的数据很稀疏，那应该选择有自适应性的优化函数。并且你还可以减少调参的时间，用默认参数取得好的结果。
RMSprop是adagrad的一个拓展，旨在解决它提前结束的问题。
而RMSprop和Adadelta类似，只是adadelta采用了RMS的方法更新参数。
在RMSprop基础上增加了偏差校正和momentum，形成了Adam。

综上，RMSprop、Adadelta、Adam都是类似的。

Kingma的论文中的实验表示，偏差校正使得Adam在优化到后面梯度变的稀疏的时候使得其优化性能最好。

所以，可能Adam是最好的优化函数。
如果你希望你的训练能变的更快，或者你要训练的是一个复杂的深度的网络，尽量选择自适应的优化函数。

参考

一文看尽深度学习中的15种损失函数 - 知乎 (zhihu.com)
https://blog.csdn.net/frank_ljiang/article/details/104269899
https://blog.csdn.net/qq_21460525/article/details/70146665

你可能感兴趣的:(深度学习,机器学习,PyTorch,深度学习,机器学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
【安装环境】配置MMTracking环境 xuanyu22 安装环境机器学习神经网络深度学习 python
版本v0.14.0安装torchnumpy的版本不能太高，否则后面安装时会发生冲突。先安装numpy，因为pytorch的安装会自动配置高版本numpy。condainstallnumpy=1.21.5mmtracking支持的torch版本有限，需要找到合适的condainstallpytorch==1.11.0torchvision==0.12.0cudatoolkit=10.2-cpytor
Python(PyTorch)和MATLAB及Rust和C++结构相似度指数测量导图亚图跨际 Python 交叉知识算法量化检查图像压缩质量低分辨率多光谱峰值信噪比端到端优化图像压缩手术机器人三维实景实时可微分渲染重建三维可视化
要点量化检查图像压缩质量低分辨率多光谱和高分辨率图像实现超分辨率分析图像质量图像索引/多尺度结构相似度指数和光谱角映射器及视觉信息保真度多种指标峰值信噪比和结构相似度指数测量结构相似性图像分类PNG和JPEG图像相似性近似算法图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU变速图像压缩手术机器人深度估计算法重建三维可视化推理图像超分辨率算法模型三维实景实时可微分渲染算法MATLAB结构
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发