深度学习(17)机器学习常用的损失函数

损失函数

  • 分类损失函数
    • 一、LogLoss对数损失函数(逻辑回归,交叉熵损失)
    • 二、 指数损失函数(Adaboost)
    • 三、Hinge损失函数(SVM)
  • 回归损失函数
    • 一、均方误差、平方损失-L2损失:
    • 二、平均绝对误差-L1损失函数:
    • 平均绝对误差和均方误差(L1&L2)比较:
    • 三、Huber损失——平滑平均绝对误差
    • 四、Log-Cosh损失函数
    • 五、分位数损失(Quantile Loss)
    • 了解分位数损失函数
    • 比较研究:
    • 总结

分类损失函数

一、LogLoss对数损失函数(逻辑回归,交叉熵损失)

有些人可能觉得逻辑回归的损失函数就是平方损失,其实并不是。平方损失函数可以通过线性回归在假设样本是高斯分布的条件下推导得到,而逻辑回归得到的并不是平方损失。在逻辑回归的推导中,它假设样本服从伯努利分布(0-1分布),然后求得满足该分布的似然函数,接着取对数求极值等等。而逻辑回归并没有求似然函数的极值,而是把极大化当做是一种思想,进而推导出它的经验风险函数为:最小化负的似然函数(即max F(y, f(x)) —> min -F(y, f(x)))。从损失函数的视角来看,它就成了log损失函数了。

log损失函数的标准形式:
在这里插入图片描述

刚刚说到,取对数是为了方便计算极大似然估计, 因为在MLE(最大似然估计)中,直接求导比较困难,所以通常都是先取对数再求导找极值点。 损失函数L(Y, P(Y|X))表达的是样本X在分类Y的情况下,使概率P(Y|X)达到最大值(换言之,就是利用已知的样本分布,找到最有可能(即最大概率)导致这种分布的参数值;或者说什么样的参数才能使我们观测到目前这组数据的概率最大)。因为log函数是单调递增的,所以logP(Y|X)也会达到最大值,因此在前面加上负号之后,最大化P(Y|X)就等价于最小化L了。

逻辑回归的P(Y=y|x)表达式如下(为了将类别标签y统一为1和0,下面将表达式分开表示):
深度学习(17)机器学习常用的损失函数_第1张图片

将它带入到上式,通过推导可以得到logistic的损失函数表达式,如下:

在这里插入图片描述

逻辑回归最后得到的目标式子如下:
在这里插入图片描述

上面是针对二分类而言的。这里需要解释一下:之所以有人认为逻辑回归是平方损失,是因为在使用梯度下降来求最优解的时候,它的迭代式子与平方损失求导后的式子非常相似,从而给人一种直观上的错觉。

这里有个PDF可以参考一下:Lecture 6: logistic regression.pdf

注意:softmax使用的即为交叉熵损失函数,binary_cossentropy为二分类交叉熵损失, categorical_crossentropy为多分类交叉熵损失,当使用多分类交叉熵损失函数时,标签应该为多分类模式,即使用one-hot编码的向量。

二、 指数损失函数(Adaboost)

学过Adaboost算法的人都知道,它是前向分步加法算法的特例,是一个加和模型,损失函数就是指数函数。在Adaboost中,经过m此迭代之后,可以得到fm(x):
在这里插入图片描述

Adaboost每次迭代时的目的是为了找到最小化下列式子时的参数α 和G:
在这里插入图片描述

而指数损失函数(exp-loss)的标准形式如下
在这里插入图片描述

可以看出,Adaboost的目标式子就是指数损失,在给定n个样本的情况下,Adaboost的损失函数为:
在这里插入图片描述

关于Adaboost的推导,可以参考Wikipedia:AdaBoost或者《统计学习方法》P145.

三、Hinge损失函数(SVM)

在机器学习算法中,hinge损失函数和SVM是息息相关的。在线性支持向量机中,最优化问题可以等价于下列式子:
在这里插入图片描述

下面来对式子做个变形,令:
在这里插入图片描述

于是,原式就变成了:
在这里插入图片描述

如若取λ=1/(2C),式子就可以表示成:
在这里插入图片描述

可以看出,该式子与下式非常相似:
在这里插入图片描述

前半部分中的 l 就是hinge损失函数,而后面相当于L2正则项。

Hinge 损失函数的标准形式
在这里插入图片描述

可以看出,当|y|>=1时,L(y)=0。

更多内容,参考Hinge-loss。

补充一下:在libsvm中一共有4中核函数可以选择,对应的是-t参数分别是:

0-线性核;
1-多项式核;
2-RBF核;
3-sigmoid核。
深度学习(17)机器学习常用的损失函数_第2张图片

回归损失函数

一、均方误差、平方损失-L2损失:

均方误差(Mean Squared Error-MSE)是回归损失函数中最常用的误差,它是预测值与目标值之间差值的平方和,其公式如下所示:
深度学习(17)机器学习常用的损失函数_第3张图片

下图是均方根误差值的曲线分布,其中最小值为预测值为目标值的位置。我们可以看到随着误差的增加损失函数增加的更为迅猛。
深度学习(17)机器学习常用的损失函数_第4张图片
MSE损失(Y轴)与预测(X轴)的关系图

二、平均绝对误差-L1损失函数:

平均绝对误差 (MAE) 是另一种常用的回归损失函数,它是目标值与预测值之差绝对值的和,表示了预测值的平均误差幅度,而不需要考虑误差的方向(注:平均偏差误差MBE则是考虑的方向的误差,是残差的和),范围是0到∞,其公式如下所示:
深度学习(17)机器学习常用的损失函数_第5张图片

深度学习(17)机器学习常用的损失函数_第6张图片
MAE损失(Y轴)与预测(X轴)的关系图

平均绝对误差和均方误差(L1&L2)比较:

通常来说,利用均方差更容易求解,但平方绝对误差则对于异常值更稳健 ,下面让我们对这两种损失函数进行具体的分析。

无论哪一种机器学习模型,目标都是找到能使目标函数最小的点。在最小值处每一种损失函数都会得到最小值。但哪种是更好的指标呢?你可以上述笔记本地址自行运行代码,检查它们的各项指标。

让我们用具体例子看一下,下图是均方根误差和平均绝对误差的比较(其中均方根误差的目的是与平均绝对误差在量级上统一):
深度学习(17)机器学习常用的损失函数_第7张图片

左边的图中预测值与目标值很接近,误差与方差都很小,而右边的图中由于异常值的存在使得误差变得很大。

由于均方误差(MSE)在误差较大点时的损失远大于平均绝对误差(MAE),它会给异常值赋予更大的权重,模型会全力减小异常值造成的误差,从而使得模型的整体表现下降。

所以当训练数据中含有较多的异常值时,平均绝对误差(MAE)更为有效。当我们对所有观测值进行处理时,如果利用MSE进行优化则我们会得到所有观测的均值,而使用MAE则能得到所有观测的中值。与均值相比,中值对于异常值的鲁棒性更好,这就意味着平均绝对误差对于异常值有着比均方误差更好的鲁棒性。

但MAE也存在一个问题,特别是对于神经网络来说,它的梯度在极值点处会有很大的跃变,及时很小的损失值也会长生很大的误差,这很不利于学习过程。为了解决这个问题,需要在解决极值点的过程中动态减小学习率。MSE在极值点却有着良好的特性,及时在固定学习率下也能收敛。MSE的梯度随着损失函数的减小而减小,这一特性使得它在最后的训练过程中能得到更精确的结果(如下图)。
深度学习(17)机器学习常用的损失函数_第8张图片

在实际训练过程中,如果异常值对于实际业务十分重要需要进行检测,MSE是更好的选择,而如果在异常值极有可能是坏点的情况下MAE则会带来更好的结果。

总结:L1损失对于异常值更鲁棒,但它的导数不连续使得寻找最优解的过程低效;L2损失对于异常值敏感,但在优化过程中更为稳定和准确。更详细的L1和L2不同比较可以参考这篇文章。

但现实中还存在两种损失都很难处理的问题。例如某个任务中90%的数据都符合目标值——150,而其余的10%数据取值则在0-30之间。那么利用MAE优化的模型将会得到150的预测值而忽略的剩下的10%(倾向于中值);而对于MSE来说由于异常值会带来很大的损失,将使得模型倾向于在0-30的方向取值。这两种结果在实际的业务场景中都是我们不希望看到的。

  • MSE计算简便,但MAE对异常点有更好的鲁棒性:当数据中存在异常点时,用MSE/RMSE计算损失的模型会以牺牲了其他样本的误差为代价,朝着减小异常点误差的方向更新。然而这就会降低模型的整体性能。

直观上可以这样理解:如果我们最小化MSE来对所有的样本点只给出一个预测值,那么这个值一定是所有目标值的平均值。但如果是最小化MAE,那么这个值,则会是所有样本点目标值的中位数。众所周知,对异常值而言,中位数比均值更加鲁棒,因此MAE对于异常值也比MSE更稳定。

  • NN中MAE更新梯度始终相同,而MSE则不同:MSE损失的梯度随损失增大而增大,而损失趋于0时则会减小。

Loss选择建议:
MSE:如果异常点代表在商业中很重要的异常情况,并且需要被检测出来
MAE:如果只把异常值当作受损数据

三、Huber损失——平滑平均绝对误差

  • 使用MAE训练神经网络最大的一个问题就是不变的大梯度,这可能导致在使用梯度下降快要结束时,错过了最小点。而对于MSE,梯度会随着损失的减小而减小,使结果更加精确。在这种情况下,Huber损失就非常有用。它会由于梯度的减小而落在最小值附近。比起MSE,它对异常点更加鲁棒。因此,Huber损失结合了MSE和MAE的优点。但是,Huber损失的问题是我们可能需要不断调整超参数delta。

Huber损失相比于平方损失来说对于异常值不敏感,但它同样保持了可微的特性。它基于绝对误差但在误差很小的时候变成了平方误差。我们可以使用超参数δ来调节这一误差的阈值。当δ趋向于0时它就退化成了MAE,而当δ趋向于无穷时则退化为了MSE,其表达式如下,是一个连续可微的分段函数:
深度学习(17)机器学习常用的损失函数_第9张图片

深度学习(17)机器学习常用的损失函数_第10张图片
深度学习(17)机器学习常用的损失函数_第11张图片

对于Huber损失来说,δ的选择十分重要,它决定了模型处理异常值的行为。 当残差大于δ时使用L1损失,很小时则使用更为合适的L2损失来进行优化。

Huber损失函数克服了MAE和MSE的缺点,不仅可以保持损失函数具有连续的导数,同时可以利用MSE梯度随误差减小的特性来得到更精确的最小值,也对异常值具有更好的鲁棒性

而Huber损失函数的良好表现得益于精心训练的超参数δ。

四、Log-Cosh损失函数

Log-Cosh损失函数是一种比L2更为平滑的损失函数,利用双曲余弦来计算预测误差:
深度学习(17)机器学习常用的损失函数_第12张图片
深度学习(17)机器学习常用的损失函数_第13张图片

它的优点在于对于很小的误差来说log(cosh(x))与(x^2)/2很相近,而对于很大的误差则与abs(x)-log2很相近。这意味着log cosh损失函数可以在拥有MSE优点的同时也不会受到异常值的太多影响。 它拥有Huber的所有优点,并且在每一个点都是二次可导的。二次可导在很多机器学习模型中是十分必要的,例如使用牛顿法的XGBoost优化模型(Hessian矩阵)。
深度学习(17)机器学习常用的损失函数_第14张图片

XgBoost中使用的目标函数,注意对一阶和二阶导数的依赖性
但是Log-cosh损失并不是完美无缺的,它还是会在很大误差的情况下梯度和hessian变成了常数。

Huber和Log-cosh损失函数的Python代码:
深度学习(17)机器学习常用的损失函数_第15张图片

五、分位数损失(Quantile Loss)

在大多数真实世界的预测问题中,我们常常希望看到我们预测结果的不确定性。通过预测出一个取值区间而不是一个个具体的取值点对于具体业务流程中的决策至关重要。

分位数损失函数在我们需要预测结果的取值区间时是一个特别有用的工具。通常情况下我们利用最小二乘回归来预测取值区间主要基于这样的假设:取值残差的方差是常数。但很多时候对于线性模型是不满足的。这时候就需要分位数损失函数和分位数回归来拯救回归模型了。它对于预测的区间十分敏感,即使在非均匀分布的残差下也能保持良好的性能。下面让我们用两个例子看看分位数损失在异方差数据下的回归表现。
深度学习(17)机器学习常用的损失函数_第16张图片

左:线性关系b / w X1和Y.具有恒定的残差方差。右:线性关系b / w X2和Y,但Y的方差随着X2增加。
上图是两种不同的数据分布,其中左图是残差的方差为常数的情况,而右图则是残差的方差变化的情况。我们利用正常的最小二乘对上述两种情况进行了估计,其中橙色线为建模的结果。但是我们却无法得到取值的区间范围,这时候就需要分位数损失函数来提供。

深度学习(17)机器学习常用的损失函数_第17张图片

上图中上下两条虚线基于0.05和0.95的分位数损失得到的取值区间,从图中可以清晰地看到建模后预测值得取值范围。

了解分位数损失函数

分位数回归的目标在于估计给定预测值的条件分位数。实际上分位数回归就是平均绝对误差的一种拓展。分位数值得选择在于我们是否希望让正的或者负的误差发挥更大的价值。损失函数会基于分位数γ对过拟合和欠拟合的施加不同的惩罚。例如选取γ为0.25时意味着将要惩罚更多的过拟合而尽量保持稍小于中值的预测值。

在这里插入图片描述

γ的取值通常在0-1之间,图中描述了不同分位数下的损失函数情况,明显可以看到对于正负误差不平衡的状态。

深度学习(17)机器学习常用的损失函数_第18张图片
使用分位数损失(Y轴)与预测(X轴)的关系图。
我们可以利用分位数损失函数来计算出神经网络或者树状模型的区间。下图是计算出基于梯度提升树回归器的取值区间:
深度学习(17)机器学习常用的损失函数_第19张图片

使用分位数损失的预测区间(梯度提升回归器)
90%的预测值起上下边界分别是用γ值为0.95和0.05计算得到的。

比较研究:

在文章的最后,我们利用sinc(x)模拟的数据来对不同损失函数的性能进行了比较。在原始数据的基础上加入而高斯噪声和脉冲噪声(为了描述鲁棒性)。下图是GBM回归器利用不同的损失函数得到的结果,其中ABCD图分别是MSE, MAE, Huber, Quantile损失函数的结果
深度学习(17)机器学习常用的损失函数_第20张图片

将一个平滑的GBM拟合成有噪声的sinc(x)数据的示例:(E)原始sinc(x)函数;(F)符合MSE和MAE损失的平滑GBM;(G)平滑GBM,其具有Huber损耗,δ= {4,2,1};(H)光滑的GBM与α= {0.5,0.1,0.9}的分位数损失相符合。

我们可以看到MAE损失函数的预测值受到冲击噪声的影响更小,而MSE则有一定的偏差;Huber损失函数对于超参数的选取不敏感,同时分位数损失在对应的置信区间内给出了较好的估计结果。

希望小伙伴们能从这篇文章中更深入地理解损失函数,并在未来的工作中选择合适的函数来更好更快地完成工作任务。

总结

将本文中几种损失函数都放到一个图中的结果:

深度学习(17)机器学习常用的损失函数_第21张图片

你可能感兴趣的:(深度学习,计算机视觉,深度学习,神经网络,损失函数)