常见概率分布介绍

常见概率分布

Bernoulli分布

Bernoulli分布是单个二值随机变量分布, 单参数∈[0,1]控制,给出随机变量等于1的概率. 基本形式为:

image.png

其期望为：

其方差为：

Multinoulli分布也叫范畴分布, 是单个k值随机分布,经常用来表示对象分类的分布. 其中是有限值.Multinoulli分布由向量参数化,每个分量表示第个状态的概率, 且.

适用范围: 伯努利分布适合对离散型随机变量建模.

高斯分布

高斯也叫正态分布(Normal Distribution), 概率度函数如下:

其中, 和分别是均值和方差, 中心峰值x坐标由给出, 峰的宽度受控制, 最大点在处取得, 拐点为

正态分布中，±1、±2、±3下的概率分别是68.3%、95.5%、99.73%，这3个数最好记住。

此外, 令高斯分布即简化为标准正态分布:

对概率密度函数高效求值:

其中，通过参数来控制分布精度。

何时采用正态分布

问: 何时采用正态分布?
答: 缺乏实数上分布的先验知识, 不知选择何种形式时, 默认选择正态分布总是不会错的, 理由如下:

中心极限定理告诉我们, 很多独立随机变量均近似服从正态分布, 现实中很多复杂系统都可以被建模成正态分布的噪声, 即使该系统可以被结构化分解.
正态分布是具有相同方差的所有概率分布中, 不确定性最大的分布, 换句话说, 正态分布是对模型加入先验知识最少的分布.

正态分布的推广:
正态分布可以推广到空间, 此时称为多位正态分布, 其参数是一个正定对称矩阵:

对多为正态分布概率密度高效求值:

此处，是一个精度矩阵。

指数分布

深度学习中, 指数分布用来描述在点处取得边界点的分布, 指数分布定义如下:

指数分布用指示函数来使取负值时的概率为零。

Laplace 分布

一个联系紧密的概率分布是 Laplace 分布（Laplace distribution），它允许我们在任意一点处设置概率质量的峰值

Dirac分布和经验分布

Dirac分布可保证概率分布中所有质量都集中在一个点上. Diract分布的狄拉克函数(也称为单位脉冲函数)定义如下:

Dirac 分布经常作为经验分布（empirical distribution）的一个组成部分出现

, 其中, m个点是给定的数据集, 经验分布将概率密度赋给了这些点.

当我们在训练集上训练模型时, 可以认为从这个训练集上得到的经验分布指明了采样来源.

适用范围: 狄拉克δ函数适合对连续型随机变量的经验分布.

期望、方差、协方差、相关系数

期望

在概率论和统计学中，数学期望（或均值，亦简称期望）是试验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。

线性运算：
推广形式：
函数期望：设为的函数，则的期望为
- 离散函数：
- 连续函数：

注意：

函数的期望大于等于期望的函数（Jensen不等式），即

一般情况下，乘积的期望不等于期望的乘积。

如果和相互独立，则。

方差

概率论中方差用来度量随机变量和其数学期望（即均值）之间的偏离程度。方差是一种特殊的期望。定义为：

方差性质：

1）
2）常数的方差为0;
3）方差不满足线性性质;
4）如果和相互独立,

协方差

协方差是衡量两个变量线性相关性强度及变量尺度。两个随机变量的协方差定义为：

方差是一种特殊的协方差。当时，。

协方差性质：

1）独立变量的协方差为0。
2）协方差计算公式：

3）特殊情况：

常见概率分布介绍