机器学习总结(三)——损失函数

经典机器学习算法,他们最本质的区别是分类思想(预测y的表达式)不同,有的是基于概率模型,有的是动态规划,表象的区别就是最后的损失函数不同。

损失函数分为经验风险损失函数和结构风险损失函数,经验风险损失函数反映的是预测结果和实际结果之间的差别,结构风险损失函数则是经验风险损失函数加上正则项(L0、L1(Lasso)、L2(Ridge))。

不同的算法常用的损失函数(Loss Function)有:

一、0-1损失函数(gold standard 标准式)

       0-1损失是指,预测值和目标值不相等为1,否则为0: 

                                                   

      该损失函数不考虑预测值和真实值的误差程度,也就是说只要预测错误,预测错误差一点和差很多是一样的。感知机就是用的这种损失函数,但是由于相等这个条件太过严格,我们可以放宽条件,即满足 |Y−f(X)|

                                                     

       这种损失函数用在实际场景中比较少,更多的是用俩衡量其他损失函数的效果。

二、绝对值损失函数

        绝对值损失函数,(暂时还不知道用在啥场合,了解后改正):

                                               

三、平方损失函数(squared loss)

       实际结果和观测结果之间差距的平方和,一般用在线性回归中,可以理解为最小二乘法:

                                                       

       

四、对数损失函数(logarithmic loss)

       主要在逻辑回归中使用,样本预测值和实际值的误差符合高斯分布,使用极大似然估计的方法,取对数得到损失函数:

                                                             

       损失函数L(Y,P(Y|X))L(Y,P(Y|X))是指样本X在分类Y的情况下,使概率P(Y|X)达到最大值。

       经典的对数损失函数包括entropy和softmax,一般在做分类问题的时候使用(而回归时多用绝对值损失(拉普拉斯分布时,μ值为中位数)和平方损失(高斯分布时,μ值为均值))。

 

五、指数损失函数(Exp-Loss)

       在boosting算法中比较常见,比如Adaboosting中,标准形式是:

                                                              

六、铰链损失函数(Hinge Loss)

       铰链损失函数主要用在SVM中,Hinge Loss的标准形式为:

                                                              

       y是预测值,在-1到+1之间,t为目标值(-1或+1)。其含义为,y的值在-1和+1之间就可以了,并不鼓励|y|>1|y|>1,即并不鼓励分类器过度自信,让某个正确分类的样本的距离分割线超过1并不会有任何奖励,从而使分类器可以更专注于整体的分类误差。



 

你可能感兴趣的:(机器学习)