一、看文章

“熵”不起:从熵、最大熵原理到最大熵模型(一)
“熵”不起:从熵、最大熵原理到最大熵模型(二)
“熵”不起:从熵、最大熵原理到最大熵模型(三)
信息熵与最大熵模型

二、那么多概念,怎么办

熵,条件熵,联合熵,交叉熵,KL散度(相对熵)
老实说看到怎么概念,立马想放弃,数学就是不停用高深概念打败你,让你退缩。所以你只能个个击破
5个概念,只需要掌握3个,其他几个可以由这三个推导和理解,那么问题化简了,所以我们要了解哪三个?是熵,联合熵,交叉熵

  • 1.熵

不多说了,看上述文章

  • 2.联合熵

看第一篇文章,可得条件熵 = 联合熵 - 熵

  • 3.交叉熵

1、熵的本质的另一种解释:最短平均编码长度;    
【本质含义:编码方案完美时,最短平均编码长度的是多少】

2、交叉熵,则可以这样理解:
使用了“估算”的编码后,得到的平均编码长度(可能不是最短的)            
p是真实概率分布,q是你以为的概率分布(可能不一致);           
 你以 q 去编码,编码方案 log(1/q_i)可能不是最优的;            
于是,平均编码长度 = ∑ p_i *log(1/q_i),就是交叉熵;            
只有在估算的分布 q 完全正确时,平均编码长度才是最短的
[交叉熵](https://www.zhihu.com/question/41252833)
KL散度 = 交叉熵 - 熵

非常不明白,为什么数学书本为什么要把KL散度的公式写成这样?特意搞晕我们吗?显示自己高深?


把公式拆开,也就是 KL散度公式该有的形式,立马懂了,谢谢,就到此为止
熵_第1张图片
KL散度公式该有的形式

你可能感兴趣的:(熵)