花书《深度学习》《Deep Learning》学习笔记chapter3（2）

3.9 常用概率分布

3.9.1 Bernoulli 分布

Bernoulli分布 (Bernoulli distribution)是单个二值型随机变量的分布。相关性质:

P (x = 1) = φ
P (x = 0) = 1 − φ
二项分布(Binomial distribution)将伯努利试验独立地重复n次称为n重伯努利试验
P(x = x) = φ^x · (1 − φ)^1−x
E[x] = φ
Var(x) = φ(1 − φ)

3.9.2 Multinoulli 分布

Multinoulli 分布 (multinoulli distribution) 或者分类分布 (categorical distribution) 是指在具有 k 个不同状态的单个离散型随机变量上的分布，k 是有限的。比如扔骰子

3.9.3 高斯分布

正态分布 (normal distribution)，也称为高斯分布 (Gaussian distribution)

采用一种更高效的使用参数描述分布的方式是使用参数 :β=1/σ^2，β ∈ (0, ∞)，来控制分布的精度 (precision) 或者方差的倒数。

中心极限定理(central limit theorem)：大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。

3.9.4 指数分布和 Laplace 分布

指数分布 (exponential distribution):

Laplace分布 (Laplace distribution):

3.9.5 Dirac 分布和经验分布

在一些情况下，我们想要所有的概率都集中在一个点上。这可以通过Dirac delta 函数 (Dirac delta function)δ(x) 定义概率密度函数来实现:p(x) = δ(x − μ)
Dirac delta 函数被定义成除了 0 以外的其他点的值都为 0，但是积分为 1。
Dirac 分布经常作为经验分布 (empirical distribution)的一个组成部分出现:

经验分布将概率密度1/m 赋给 m 个点 x(1) , . . . , x(m) 中的每一个，这些点是给定的数据集或者采样的集合。Dirac delta 函数只对定义连续型随机变量的经验分布是必要的。对于离散型随机变量，情况更加简单:经验分布可以被定义成一个Multinoulli 分布，对于每一个可能的输入，其概率可以简单地设为在训练集上那个输入值的经验频率 (empirical frequency)。

3.9.6 分布的混合

高斯混合模型 (Gaussian Mixture Model)(https://zhuanlan.zhihu.com/p/31103654)

3.10 常用函数的一些性质

logistic sigmoid函数：

花书《深度学习》《Deep Learning》学习笔记chapter3（2）_第1张图片

logistic sigmoid函数

logistic sigmoid函数通常用来产生Bernoulli 分布中的参数 φ，因为它的范围是 (0, 1)，处在 φ 的有效取值范围内。图中给出了 sigmoid 函数的图示。sigmoid 函数在变量取绝对值非常大的正值或负值时会出现饱和 (saturate) 现象，意味着函数会变得很平，并且对输入的微小改变会变得不敏感。
softplus 函数 (softplus function)

花书《深度学习》《Deep Learning》学习笔记chapter3（2）_第2张图片

softplus 函数

3.11 贝叶斯规则

贝叶斯规则 (Bayes’ rule)

3.12 连续型变量的技术细节

3.13 信息论

(《数学之美》关于信息论的说法很生动)
自信息 (self-information):
I(x) = − logP(x)(大多数材料是以2为底，但在《deep learning》以自然对数为底)
香农熵 (Shannon entropy)来对整个概率分布中的不确定性总量进行量化

KL 散度 (Kullback-Leibler (KL) divergence)又称为 相对熵（relative entropy）：两个概率分布P和Q差别的非对称性的度量。 KL散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。典型情况下，P表示数据的真实分布，Q表示数据的理论分布，模型分布，或P的近似分布。

KL散度不具有对称性：从分布P到Q的距离通常并不等于从Q到P的距离。

交叉熵 (cross-entropy):

互信息(Mutual Information，简称MI)或 转移信息（transinformation）是变量间相互依赖性的量度。
条件熵:在已知第二个随机变量X的值的前提下，随机变量 Y的信息熵还有多少。基于X条件的Y的信息熵，用H(Y|X)表示。

3.14 结构化概率模型

用图来表示概率分布的因子分解，我们把它称为结构化概率模型 (structured probabilistic model)或者图模型 (graphical model)。
有两种主要的结构化概率模型:有向的和无向的。
有向 (directed) 模型，也称贝叶斯网络，使用带有有向边的图，它们用条件概率分布来表示因子分解。
无向 (undirected) 模型，也称马尔可夫随机场，使用带有无向边的图。

无向图中的一个全连通子图，称为团（Clique），即团内的所有节点之间都连边。无向模型中的每个团 C(i) 都伴随着一个因子 φ(i)(C(i))。这些因子仅仅是函数，并不是概率分布。每个因子的输出都必须是非负的，但是并没有像概率分布中那样要求因子的和或者积分为 1。用常数 Z 来得到归一化的概率分布。
用书中的两个例子来说明下:

花书《深度学习》《Deep Learning》学习笔记chapter3（2）_第3张图片

有向图

由条件概率的链式法则得到

由图中关系得到

花书《深度学习》《Deep Learning》学习笔记chapter3（2）_第4张图片

无向图

由于无向图模型并不提供一个变量的拓扑顺序，因此无法用链式法则对p(x)进行逐一分解。无向图模型的联合概率一般以全连通子图为单位进行分解。（来源： https://nndl.github.io/chap-%E6%A6%82%E7%8E%87%E5%9B%BE%E6%A8%A1%E5%9E%8B.pdf）
图中有三个团（a,b,c）,(b,d),(c,e),因此得到此图对应的概率分布可以分解为: