熵,信息熵,最大熵,交叉熵,交叉熵,损失函数,随机熵,vc熵的区别和联系

1 熵的定义起源于物理学领域。热力学中表征物质状态的参量之一,用符号S表示,其物理意义是体系混乱程度的度量,简单的可以表述为,在一个孤立系统中,熵总是增大,朝无序的方向发展。

2 在信息论中,熵是信息熵,熵代表了信息量,系统状态越少,熵越少。系统越复杂,熵越大,定义如下,

    H(x) = E[I(xi)] = E[ log(2,1/P(xi)) ] = -∑P(xi)log(2,P(xi)) (i=1,2,..n)

    其中,x表示随机变量,与之相对应的是所有可能输出的集合,定义为符号集,随机变量的输出用x表示。P(x)表示输出概率函数。变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大.

举例:

    香农熵,是以2为底,单位是bit表示 表达 32个不同信息,需要5bit位。

概率的表示方法。

以计算一本五十万字的中文书平均有多少信息量为例。常用的汉字(一级二级国标)大约有 7000 字。假如每个字等概率,那么大约需要 13 个比特(即 13 位二进制数)表示一个汉字。但汉字的使用是不平衡的。实际上,前 10% 的汉字占文本的 95% 以上。因此,即使不考虑上下文的相关性,而只考虑每个汉字的独立的概率,那么,每个汉字的信息熵大约也只有 8-9 个比特。如果再考虑上下文相关性,每个汉字的信息熵只有5比特左右。

交叉熵。

        交叉熵(Cross Entropy)是Shannon信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息。可以用来作为损失函数。

        

熵,信息熵,最大熵,交叉熵,交叉熵,损失函数,随机熵,vc熵的区别和联系_第1张图片

交叉熵越小,P,Q分布越接近。

 

交叉熵损失函数。

 

说起交叉熵损失函数「Cross Entropy Loss」,脑海中立马浮现出它的公式:

            L=−[ylog y^+(1−y)log (1−y^)]

其中 y是真实值 y^是预测。

当 y=1 时候    L=-loglog y^   y^越接近 1越小

当y=0死活    L=log (1−y^)    y^越接近 0越小

 

随机熵、vc熵、退火VC熵、生长函数、VC维是统计学习理论中的理论。

http://www.mamicode.com/info-detail-1627526.html

 


 


 

你可能感兴趣的:(熵,信息熵,最大熵,交叉熵,交叉熵,损失函数,随机熵,vc熵的区别和联系)