概率与数理统计

image.png

1. 全概率公式、贝叶斯公式

image.png

举例：

image.png

2. 先验概率、后验概率

image.png

3. 概率密度函数、分布函数

image.png

KL散度

KL散度用来做什么？
KL散度的用途:比较两个概率分布的接近程度。
在统计应用中，我们经常需要用一个简单的，近似的概率分布 f^ 来描述观察数据 D或者另一个复杂的概率分布 f。此时，我们需要一个量来衡量我们选择的近似分布 f^相比原分布f究竟损失了多少信息量，这就是KL散度起作用的地方。

在信息论这门学科中，一个很重要的目标就是量化描述数据中含有多少信息。为此，提出了熵的概念，记作H，一个概率分布所对应的熵表达如下：

image.png

熵可以被理解为：我们编码所有信息所需要的最小位数

现在，我们能够量化数据中的信息量了，就可以来衡量近似分布带来的信息损失了。KL散度的计算公式其实是熵计算公式的简单变形，在原有概率分布 p 上，加入我们的近似概率分布 q，计算他们的每个取值对应对数的差：

image.png

KL散度计算：数据的原分布与近似分布的概率的对数差的期望值

信息熵是什么？

https://www.zhihu.com/question/22178202/answer/667876061

香农最初并没有借用“熵”这个词汇来表达他关于信息传输中的“不确定性”的度量化。他甚至都不太知晓他所考虑的量与古典热力学熵之间的类似性。他想把它称为“information（信息）”，但又认为这个名词太过大众化，已被普通老百姓的日常话语用滥了。他又考虑过就用单词“uncertainty（不确定性）”，但它却更像抽象名词，缺乏量化的余地，确实难于定夺。终于有一天，他遇见了天才的数学家冯 • 诺依曼（John von Neumann, 1903-1957）。真是找对了人！冯·诺依曼马上告诉他：

就叫它熵吧，这有两个好理由。一是你的不确定性函数已在统计物理中用到过，在那里它就叫熵。第二个理由更重要：没人真正理解熵为何物，这就让你在任何时候都可能进能退，立于不败之地。

香农的信息熵本质上是对我们司空见惯的“不确定现象”的数学化度量。譬如说，如果天气预报说“今天中午下雨的可能性是百分之九十”，我们就会不约而同想到出门带伞；如果预报说“有百分之五十的可能性下雨”，我们就会犹豫是否带伞，因为雨伞无用时确是累赘之物。显然，第一则天气预报中，下雨这件事的不确定性程度较小，而第二则关于下雨的不确定度就大多了。

image.png

概率与数理统计

1. 全概率公式、贝叶斯公式

2. 先验概率、后验概率

3. 概率密度函数、分布函数

KL散度

信息熵是什么？

你可能感兴趣的:(概率与数理统计)