各种熵和Softmax-loss

一 自信息

1.定义:描述某个事件发生所带来的信息量,由克劳德·香农提出,,当即随机事件不发生时自信息被定义为无限大,当即随机事件确定会发生时自信息为0。

2. 单位:在自信息的定义中,对数的底决定自信息的单位,以2为底则记为比特(bit),以e为底(自然对数)则记为奈特(nat)。

二 熵

1. 定义:传送一个随机变量x的平均信息量称为随机变量x的熵,它是表示随机变量不确定性的度量,是对所有可能发生的事件产生的信息量的期望。即自信息关于概率分布的期望:

当概率为均匀分布时,熵最大(不确定性最大),此时。

三 条件熵

1. 定义:在已知随机变量X的条件下,随机变量Y的不确定性。即给定X的条件下,Y的条件概率分布的熵对X的数学期望:

四 相对熵(KL散度)

1. 定义:概率分布P对Q的相对熵是P和Q的对数差在P上的期望值:

2. 性质:如果P和Q两个分布相同,则相对熵为0;相对熵恒大于等于0;相对熵具有不对称性。

五 交叉熵

1. 定义:描述实际概率分布p(x)于期望概率分布的距离,交叉熵越小,两个概率分布越接近。

   --->  

在机器学习中,训练数据分布是固定的,即为常数,在训练中总是希望在训练数据上模型学到的分布和真实数据分布越接近越好,即希望相对熵最小,等价于交叉熵最小,等价于最大似然估计。

参考:https://www.cnblogs.com/kyrieng/p/8694705.html

六 Softmax Loss

1. 定义:

M: 训练batchsize,:该训练batch中的第i个人脸图片,:对应的神经网络倒数第二层输出,:对应的标签,W和b:网络最后一层(分类器)对应的权重和偏置。

2. 关于softmax的详细解释,参考:http://freemind.pluskid.org/machine-learning/softmax-vs-softmax-loss-numerical-stability/

七 交叉熵和Softmax Loss的关系

当交叉熵中的概率为Softmax概率时,交叉熵等价于Softmax loss,证明如下:

对于输入训练样本x,其在训练集上的概率分布为p,模型预测的softmax概率分布为q,则

 

其中C表示所有可能的类别数,表示输入样本x属于类别j的概率,对于机器学习的训练样本而言,通常输入样本x有唯一的标签y,即概率分布p往往为:,所以:

,j为x所属的真实类别,表示输入样本x被预测为真实类别(ground truth)的概率。所以对于M个输入样本而言,其平均交叉熵为:,其中表示第i个输入样本,为模型预测第i个样本属于其真实类别j的概率。由于概率分布q为softmax的概率分布,即,带入平均交叉熵可得M个样本的平均交叉熵等于(Softmax loss)。

你可能感兴趣的:(各种熵和Softmax-loss)