机器学习中的那些基础概念,你会了吗?

1、交叉熵
损失函数用交叉熵和均方误差的区别是什么?为什么网络选择损失函数,有时候用交叉熵,有时候用均方误差?

信息量:
一条信息的信息量大小和它的不确定性有很大的关系。一句话如果需要很多外部信息才能确定,我们就称这句话的信息量比较大。

那我们就能将事件x_0的信息量定义如下(其中p(x_0)表示事件x_0发生的概率): 在这里插入图片描述
熵:

息量是对于单个事件来说的,但是实际情况一件事有很多种发生的可能,比如掷骰子有可能出现6种情况,明天的天气可能晴、多云或者下雨等等。熵是表示随机变量不确定的度量,是对所有可能发生的事件产生的信息量的期望。公式如下:
在这里插入图片描述

              n表示事件可能发生的情况总数

相对熵(KL散度):
其值越小表示两个分布越接近

用于衡量对于同一个随机变量x的两个分布p(x)和q(x)之间的差异。在机器学习中,p(x)常用于描述样本的真实分布,例如[1,0,0,0]表示样本属于第一类,而q(x)则常常用于表示预测的分布,例如[0.7,0.1,0.1,0.1]。显然使用q(x)来描述样本不如p(x)准确,q(x)需要不断地学习来拟合准确的分布p(x)。 KL散度的公式如下:
在这里插入图片描述
2.4 交叉熵
我们将KL散度的公式进行变形,得到:
机器学习中的那些基础概念,你会了吗?_第1张图片
前半部分就是p(x)的熵,后半部分就是我们的交叉熵: 在这里插入图片描述
机器学习中,我们常常使用KL散度来评估predict和label之间的差别,但是由于KL散度的前半部分是一个常量,所以我们常常将后半部分的交叉熵作为损失函数,其实二者是一样的。

为什么分类不用均方差损失函数,是因为求导以后,如下图所示:
机器学习中的那些基础概念,你会了吗?_第2张图片
求导与激活函数有关。从以上公式可以看出,w和b的梯度跟激活函数的梯度成正比,激活函数的梯度越大,w和b的大小调整得越快,训练收敛得就越快。而我们都知道sigmoid函数长这样:图片来自:
机器学习中的那些基础概念,你会了吗?_第3张图片
在上图的绿色部分,初始值是0.98,红色部分初始值是0.82,假如真实值是0。直观来看那么0.82下降的速度明显高于0.98,但是明明0.98的误差更大,这就导致了神经网络不能像人一样,误差越大,学习的越快。

而换成交叉熵之后,重新计算梯度:
机器学习中的那些基础概念,你会了吗?_第4张图片
在这里插入图片描述
我们从结果可以看出梯度中不再含有sigmoid的导数,有的是sigmoid的值和实际值之间的差,也就满足了我们之前所说的错误越大,下降的越快。

**这也就是在分类问题中常用cross entropy 而不是 MSE的原因了;而回归问题中,需要拟合实际的值,通过MSE衡量预测值和实际值之间的误差,可以通过梯度下降的方法来优化。而不像分类问题,需要一系列的激活函数(sigmoid、softmax)来预测值映射到0-1之间。这就是区别

你可能感兴趣的:(机器学习,机器学习,基础算法,基础知识,学习笔记)