深度学习中的损失函数总结已经Center Loss函数笔记
损失函数度量的是预测值与真实值之间的差异.损失函数通常写做L(y,y).y代表了预测值,y代表了真实值.
目标函数可以看做是优化目标,优化模型的最后目标就是使得这个目标函数最大或者最小.
代价函数类似于目标函数.
区别:目标函数(代价函数)可以包含一些约束条件如正则化项.
一般不做严格区分.下面所言损失函数均不包含正则项.
以keras文档列出的几个为例
keras-loss
K.mean(K.square(y_pred-y_true),axis=-1)
K.mean(K.abs(y_pred-y_true),axis=-1)
mape(mean_absolute_percentage_error):平均绝对百分误差.
K.abs((y_true - y_pred) / K.clip(K.abs(y_true),K.epsilon(),None))
#clip(x,min,max)防止除0错误
msle(mean_squared_logarithmic_error):均方对数损失(mse的改进).
#msle
first_log = K.log(K.clip(y_pred, K.epsilon(), None) + 1.)
second_log = K.log(K.clip(y_true, K.epsilon(), None) + 1.)
loss= K.mean(K.square(first_log - second_log), axis=-1)
#mse
first_log = K.clip(y_pred, K.epsilon(), None) + 1.
second_log = K.clip(y_true, K.epsilon(), None) + 1.
loss= K.mean(K.square(first_log - second_log), axis=-1)
msle相比与mse的改进:如果想要预测的值范围很大,mse会受到一些大的值的引导,即使小的值预测准也不行.假设如:
y_true:[1,2,3,100]
y_1:[1,2,3,110]
y_2:[2,3,4,100]
mse计算结果(y_1:100,y_2:3)会认为y_2优于y_1.
msle计算结果(有_1:0.047,0.27)通过预先将所有值取log缓解了这一情况,会认为y_1优于y_2.这比较合理.
code
logcosh烫烫烫.回归
def cosh(x):
return (K.exp(x) + K.exp(-x)) / 2
K.mean(K.log(cosh(y_pred - y_true)), axis=-1)
这个函数没见人用过,按照公式作图如下:
大致可以看出来如果y_pred与y_true差异越小则值越小.
y_true = K.clip(y_true, K.epsilon(), 1)
y_pred = K.clip(y_pred, K.epsilon(), 1)
K.sum(y_true * K.log(y_true / y_pred), axis=-1)
开始正题.
以mnist数据集为例.(手写数字,28*28图像,10分类问题)
通常会使用softmax loss多分类损失函数.
使用CNN网络(mnist分类容易达到较高的准确度,为了实验效果,网络设计的故意差了点,如没有使用BN,relu,dropout,L2等trick),选择在倒数第二层全连接层输出节点为2个,称为是特征,而后将这2个节点接到最后的的10节点全连接层.
正常的训练过程,到达较高准确度后将每个数据的倒数第二层的特征打印出来.
如下图:
缺点:
原因?举例:
最后一层全连接层输出V=[x1,x2,x3],真实标签是[1,0,0].那么假设V=[x1,x2,x3]是[3.1,3,3],那么softmax的公式使得其只需要V的模长增加倍数即可以降低loss损失.这太容易(只需要增大参数即可)使得网络往往就是这样做的.而不是我们通常想要的那样去努力降低x2,x3的相对于x1的值如[3.1,1,1]这样.这也是所以L2正则会缓解过拟合的一个原因.
解决办法:很多,如故意让softmax也去模拟下均匀分布输出而不仅仅是one_hot.这里只涉及其中一种也就是centerloss.
那么换一个损失函数吧.均方误差损失?如下图:
不但准确度下降到30%,而且互相直接还有了覆盖交集.
有趣的地方:
在上述的几个损失函数上,softmax工作的是最好的了.
Center Loss针对softmax表现出的问题针对性解决.-→类内间距太大了.
对每一个类都维护一个类中心c,而后在特征层如果该样本里类中心的特征太远就要惩罚.也就是所谓的centerloss.
类中心c:每一个样本的特征需要通过一个好的网络到达特征层获得,这样计算完后所有样本的特征的平均值为类中心c,而好的网络需要是在有类中心加入的情况下才能得到…
没法直接获得c,所以将其放到网络里自己生成,在每一个batch里更新center.即随机初始化center,而后每一个batch里计算当前数据与center的距离,而后将这个梯度形式的距离加到center上.类似于参数修正.同样的类似于梯度下降法,这里再增加一个scale度量a,使得center不会抖动.
实验表明只使用centerloss效果很一般,所以一般是将centerloss与softmax结合起来,引入参数lambda.
总体结构如下:
4.算法过程
5.实验结果
准确度提高约0.6%.