深度学习(二)从统计学角度看Loss公式

损失函数(Loss function)可以用来衡量模型在给定数据上的表现。

一、 似然函数

假设有一个训练集

  • 样本
  • 对应的标签
  • 条件概率密度公式为,给定输入,得到的概率是
  • 两个事件的联合概率密度是两个条件概率的乘积,如果他们互相独立且均匀分布的话

所有观察到标签的概率为,这个就是似然函数
在神经网络里这个概率也与权值有关,训练的目的是为了让观察到正确标签的概率最大,即

出于数学计算上的考虑,算最大值不如算最小值,所以我们的目标变成了

二、回归

回归分析(Regresion)是建立因变量Y与自变量间X关系的模型,假设现在有一个单变量的高斯模型

把这个概率公式代入上面的目标公式,可以得到
\begin{equation} L(w) = \sum_{m=1}^M -ln(\frac{\sqrt{\beta}}{\sqrt{2\pi}} e^{\beta\frac{-(y_{m}-\hat{y}(x_{m},w))^2}{2}}) \\ = ...\\ =\frac{M}{2}ln(2\pi) - \frac{M}{2}ln(\beta)+\frac{\beta}{2}\sum_{m=1}^{M}(y_{m}-\hat{y}(x_{m},w))^2 \end{equation}
这个式子里除去常数和系数,剩下的就是

平方也可以写成L2范数(L2 Norm), 这也就是L2 loss的样子:

三、分类

分类问题就是给输入X归到最适合的类别Y里。假设神经网络的输出是输入归为某类的概率。对于多分类的问题,假设满足多项分布

带入到上面的目标公式里
\begin{equation} L(w) = \sum_{m=1}^M -ln(p(y_{m}|x_{m},w)) = - \sum_{m=1}^M ln\prod_{k=0}^{K}\hat{y_{k}}(x_{m},w)^{y_{k,m}}\\ = - \sum_{m=1}^M \sum_{k=0}^K ln(\hat{y_{k}}(x_{m},w)^{y_{k,m}}) = - \sum_{m=1}^M \sum_{k=0}^K y_{k,m}ln(\hat{y_{k,m}}) \end{equation}
得到了和的交叉熵,也就是交叉熵损失函数(cross-entopy loss)。

四、总结

  • L2 loss一般用于回归问题
  • 交叉熵损失函数一般用于分类问题
  • 这两种都可以看做是来自一定概率假设的极大似然估计
  • 适用于多变量

五、附带

1、范数是什么
2、其他的loss公式以及数学背景

深度学习天坑系列,觉得还行就点个赞吧

你可能感兴趣的:(深度学习(二)从统计学角度看Loss公式)