神经网络Loss损失函数总结

这篇博文总结一下损失函数,这里重点总结一下常用的损失函数。
损失函数有很多,不得不说有很多人已经专门对比过了,比如ArXiv上面的这篇就很不错:
(https://arxiv.org/pdf/1702.05659.pdf)
(http://christopher5106.github.io/deep/learning/2016/09/16/about-loss-functions-multinomial-logistic-logarithm-cross-entropy-square-errors-euclidian-absolute-frobenius-hinge.html)

softamx cross entropy loss

softmax 交叉熵损失函数是我们常用的一种损失函数,其公式如下:

E(t,y)=jtjlogyj

其中, ty 分别表示神经网络的目标标签和输出, yj 表示softmax损失函数:
yj=softmax(zj)=ezjjezj

需要注意的一点就是这个公式需要输入没有经过缩放变换的logits,还有就是使用本目标损失函数的时候不要在网络的最后一层使用softmax层或者激活函数,会导致结果不正确。

Categorical Crossentropy

交叉熵损失函数是也是常用的一种损失函数,它表示预测值y与目标值t之间的距离。主要应用在互相排斥的分类任务中,公式为:

H(y,t)=Ht(y)=itilogyi

Binary Crossentropy

这个损失函数主要是用来计算预测值y与目标值t之间的sigmoid交叉熵,主要用来多分类任务中,但是这个分类任务不是互斥的,和上面的损失函数不同,这个对同一个输入可以输出多个标签。公式为:

yyt+log(1+exp(y))

为了防止溢出,我们进行如下变换:
max(y,0)yt+log(1+exp(abs(y)))

Weighted Crossentropy

主要用来计算神经元之间的权值的交叉熵损失函数,t表示目标标签,y表示输入的预测值。该损失函数和上一个损失函数很像,唯一一点不同的就是:

该损失函数允许对负误差或者正误差加权 来调整precision 和recall

一般的交叉损失函数为:

tlog(sigmoid(y))+(1t)log(1sigmoid(y))

当我们乘上 pos_weight 之后的公式就变成:
tlog(sigmoid(y))pos_weight+(1t)log(1sigmoid(y))

为了避免溢出,我们将公式变为:

(1t)y+l(log(1+exp(abs(y)))+max(y,0))

其中, l 表示:
l=(1+(pos_weight1)t)

Mean Square Loss

这个损失函数就很常见了,t 表示目标值,y 表示预测值输出。公式为:

MSE=1ni=1n(yiti)2

Hinge Loss

这个也是很常见的一个loss函数, t 表示目标值,y 表示预测值输出。公式为:

(y)=max(0,1ty)

ROC AUC Score

使用 Wilcoxon-Mann-Whitney Statistic[详见][1] 统计量来逼近ROC曲线下面积。t 表示目标值,y 表示预测值输出。(这个目标损失函数目前我也理解的不是很好,如果有那位理解了可以给我留言指导一下)。
(http://tflearn.org/objectives/#roc-auc-score)

Weak Softmax Crossentropy 2d

这个目标损失函数使用弱交叉熵计算图像分割方面的损失,输入是一个2d形状的预测值y和目标值t 从而计算出分割的损失。 t 表示目标值,y 表示预测值输出。
(这个理解也不是很深,以后再写吧)
(http://tflearn.org/objectives/#weak-crossentropy-2d)

Contrastive Loss

对比损失函数。这个损失函数主要用在Siamese network中,参见论文(http://yann.lecun.com/exdb/publis/pdf/chopra-05.pdf)。d 表示目标值,y 表示预测值输出。

L=12Nn=1Nyd2+(1y)max(margind,0)2

其中 d 表示两个样本特征的欧氏距离
d=||xixj||2


[1]: Yan, L., Dodier, R., Mozer, M. C., & Wolniewicz, R. (2003). Optimizing Classifier Performance via an Approximation to the Wilcoxon-Mann-Whitney Statistic.
[2]: Sumit Chopra, Raia Hadsell and Yann LeCun (2005). Learning a Similarity Metric Discriminatively, with Application to Face Verification.

你可能感兴趣的:(Machine,Learning)