概率与数理统计

image.png

1. 全概率公式、贝叶斯公式

image.png

举例:


image.png

2. 先验概率、后验概率

image.png

image.png

3. 概率密度函数、分布函数

image.png
image.png

KL散度

KL散度用来做什么?
KL散度的用途:比较两个概率分布的接近程度。
在统计应用中,我们经常需要用一个简单的,近似的概率分布 f^ 来描述观察数据 D或者另一个复杂的概率分布 f。此时,我们需要一个量来衡量我们选择的近似分布 f^相比原分布f究竟损失了多少信息量,这就是KL散度起作用的地方。

在信息论这门学科中,一个很重要的目标就是量化描述数据中含有多少信息。 为此,提出了熵的概念,记作H,一个概率分布所对应的熵表达如下:
image.png

熵可以被理解为:我们编码所有信息所需要的最小位数

现在,我们能够量化数据中的信息量了,就可以来衡量近似分布带来的信息损失了。KL散度的计算公式其实是熵计算公式的简单变形,在原有概率分布 p 上,加入我们的近似概率分布 q,计算他们的每个取值对应对数的差:
image.png

KL散度计算:数据的原分布与近似分布的概率的对数差的期望值

信息熵是什么?

https://www.zhihu.com/question/22178202/answer/667876061

香农最初并没有借用“熵”这个词汇来表达他关于信息传输中的“不确定性”的度量化。他甚至都不太知晓他所考虑的量与古典热力学熵之间的类似性。他想把它称为“information(信息)”,但又认为这个名词太过大众化,已被普通老百姓的日常话语用滥了。他又考虑过就用单词“uncertainty(不确定性)”,但它却更像抽象名词,缺乏量化的余地,确实难于定夺。终于有一天,他遇见了天才的数学家冯 • 诺依曼(John von Neumann, 1903-1957)。真是找对了人!冯·诺依曼马上告诉他:

就叫它熵吧,这有两个好理由。一是你的不确定性函数已在统计物理中用到过,在那里它就叫熵。第二个理由更重要:没人真正理解熵为何物,这就让你在任何时候都可能进能退,立于不败之地。

香农的信息熵本质上是对我们司空见惯的“不确定现象”的数学化度量。譬如说,如果天气预报说“今天中午下雨的可能性是百分之九十”,我们就会不约而同想到出门带伞;如果预报说“有百分之五十的可能性下雨”,我们就会犹豫是否带伞,因为雨伞无用时确是累赘之物。显然,第一则天气预报中,下雨这件事的不确定性程度较小,而第二则关于下雨的不确定度就大多了。

image.png

你可能感兴趣的:(概率与数理统计)