MCMC-1|机器学习推导系列(十五)

一、蒙特卡洛方法

Monte Carlo Method也就是基于采样的随机近似方法。该方法旨在求得复杂概率分布下的期望值:,其中是从概率分布中取的样本,也就是说从概率分布中取个点,从而近似计算这个积分。

这里介绍三种采样方法:

  1. 概率分布采样

首先要求得概率密度函数PDF的累计密度函数CDF,然后求CDF得反函数,在0-1之间均匀取样,代入反函数,就得到了取样点。这个方法的缺点就是大部分PDF很难求得CDF:

概率分布采样
  1. 拒绝采样(Rejection Sampling)

对于较复杂的概率分布,引入简单的提议分布(proposal distribution),使得任意的,然后对进行采样获得样本。具体的采样方法步骤为:
①选择概率密度函数为,作为提议分布,使其对任一满足,其中;
②按照提议分布随机抽样得到样本,再按照均匀分布在范围内抽样得到;
③如果,则将作为抽样结果;否则,返回步骤②;
④直到获得个样本,结束。

拒绝采样的优点是容易实现,缺点是采样效率可能不高。如果的涵盖体积占的涵盖体积的比例很低,就会导致拒绝的比例很高,抽样效率很低。注意,一般是在高维空间抽样,会遇到维度灾难的问题,即使与很接近,两者涵盖体积的差异也可能很大。

  1. 重要性采样(Importance Sampling)

直接对期望进行采样。这里引入另一个分布:

E_{p(z)}[f(z)]=\int f(z)\cdot p(z)\mathrm{d}z\\ =\int f(z)\cdot \frac{p(z)}{q(z)}\cdot q(z)\mathrm{d}z\\ \approx \frac{1}{N}\sum_{i=1}^{N}f(z_{i})\cdot \underset{weight}{\underbrace{\frac{p(z_{i})}{q(z_{i})}}}\\ z_{i}\sim q(z),i=1,2,\cdots ,N

于是采样在中采样,并通过权重计算和。重要值采样对于权重⾮常⼩的时候,效率非常低。

重要性采样有⼀个变种 Sampling-Importance-Resampling,这种方法,首先和上面⼀样进行采样,然后在采样出来的N个样本中,重新采样,这个重新采样,使⽤每个样本点的权重作为概率分布进行采样。

二、马尔可夫链

1. 齐次马尔科夫链

考虑一个随机变量的序列,这里的表示时刻的随机变量,每个随机变量的取值空间相同。

如果只依赖于,而不依赖于过去的随机变量,这一性质称为马尔可夫性,即

具有马尔可夫性的随机序列称为马尔可夫链(Markov Chain),或马尔可夫过程(Markov Process)。条件概率分布称为马尔可夫链的转移概率分布。

当转移概率分布与无关,也就是说不同时刻的转移概率是相同的,则称该马尔可夫链为时间齐次的马尔可夫链(Time Homogenous Markov Chain),形式化的表达是:

2. 转移概率矩阵和状态分布

  • 转移概率矩阵

如果马尔可夫链的随机变量定义在离散空间,则转移概率分布可以由矩阵表示。若马尔可夫链在时刻处于状态,在时刻移动到状态,将转移概率记作:

满足每个列的和为:

马尔可夫链的转移概率可以由矩阵表示:

P=\begin{bmatrix} p_{11} & p_{12} & p_{13} & \cdots \\ p_{21} & p_{22} & p_{23} & \cdots \\ p_{31} & p_{32} & p_{33} & \cdots \\ \cdots & \cdots & \cdots & \cdots \end{bmatrix}\\ p_{ij}\geq 0,\; \; \sum _{i}p_{ij}=1

  • 状态分布

考虑马尔可夫链在时刻的概率分布,称为时刻的状态分布,记作:

其中表示时刻状态为的概率,即:

对于马尔可夫链的初始状态分布:

其中表示时刻状态为的概率。通常初始分布这个向量只有一个分量是,其余分量为,表示马尔可夫链是从一个具体状态开始的。

马尔可夫链在时刻的状态分布,可以由在时刻的状态分布以及转移概率分布决定:

其中:

马尔可夫链在时刻的状态分布,可以通过递推得到:

按照上述方式最终递推得到:

这里的递推式表明马尔可夫链的状态分布由初始分布转移概率分布决定。

这里的称为步转移概率矩阵:

3. 平稳分布

  • 定义

对于一个马尔可夫链,如果其状态空间上存在一个分布:

使得:

则称为马尔可夫链的平稳分布。

直观地来看,如果以该平稳分布作为初始分布,面向未来进行随机状态转移,之后任何一个时刻的状态分布都是该平稳分布。

  • 定理

给定一个马尔可夫链,分布为的平稳分布的充要条件为是下列方程组的解:

证明如下:

必要性证明
假设是一个概率分布,显然满足②和③,又因为它是一个平稳分布,所以满足,这个式子也就是①,所以得证。
充分性证明
由②和③知是一概率分布。假设是的分布,则有:

又因为满足①,所以有:

综合两式则可得出,即也是的概率分布。事实上这对任意都成立,所以是马尔可夫链的平稳分布。

这个定理给出了一个求马尔可夫链平稳分布的方法。

4. 连续状态马尔可夫链

  • 概率转移核

连续状态马尔可夫链的转移概率分布由概率转移核或转移核(transition kernel)表示。

在连续状态空间上,对任意的(可以理解为一个区间),转移核定义为:

其中为概率密度函数,满足。转移核表示从的转移概率:

有时也将概率密度函数称为转移核。

  • 平稳分布

若马尔可夫链的状态空间上的概率分布满足条件:

则为该马尔可夫链的平稳分布。等价地:

或简写为:

三、马尔可夫链的性质

以下通过离散状态马尔可夫链介绍马尔可夫链的性质,可以推广到连续状态马尔可夫链。

1. 不可约

在状态空间中对于任意状态,如果存在一个时刻满足:

也就是说,时刻从状态出发,时刻到达状态的概率大于,则称此马尔可夫链是不可约的(irreducible),否则称马尔可夫链是可约的(reducible)

直观上,一个不可约的马尔可夫链,从任意状态出发,当经过充分长时间后,可以到达任意状态。

举例:

不可约:


不可约

可约:


可约

2. 非周期

在状态空间中对于任意状态,如果时刻从状态出发,时刻返回状态的所有时间长的最大公约数是,则称此马尔可夫链是非周期的(aperiodic),否则称马尔可夫链是周期的(periodic)

直观上,一个非周期性的马尔可夫链,不存在一个状态,从这一个状态出发,再返回到这个状态时所经历的时间长呈一定的周期性,也就是说非周期性的马尔可夫链的任何状态都不具有周期性。

举例:

非周期:


非周期

周期:


周期

3. 正常返

对于任意状态,定义概率为时刻从状态出发,时刻首次转移到状态的概率,即。若对所有状态都满足,则称马尔可夫链是正常返的(positive recurrent)

直观上,一个正常返的马尔可夫链,其中任意一个状态,从其他任意一个状态出发,当时间趋于无穷时,首次转移到这个状态的概率不为。

定理:

不可约、非周期且正常返的马尔可夫链,有唯一平稳分布存在。

4. 遍历定理

设有马尔可夫链,若这个马尔可夫链是不可约、非周期且正常返的,则该马尔可夫链有唯一平稳分布,并且转移概率的极限分布是马尔可夫链的平稳分布:

也就是:

若是定义在状态空间上的函数,,则:

这里:

是关于平稳分布的数学期望,表示几乎处处成立或以概率成立。

遍历定理的直观解释:满足相应条件的马尔可夫链,当时间趋于无穷时,马尔可夫链的状态分布趋近于平稳分布,随机变量的函数的样本均值以概率收敛于该函数的数学期望

样本均值可以认为是时间均值,数学期望是空间均值。遍历定理表述了遍历性的含义:当时间趋于无穷时,时间均值等于空间均值。

遍历定理的三个条件:不可约、非周期、正常返,保证了当时间趋于无穷时达到任意一个状态的概率不为。

理论上并不知道经过多少次迭代,马尔可夫链的状态分布才能接近平稳分布,在实际应用遍历定理时,取一个足够大的整数,经过次迭代之后认为状态分布就是平稳分布,这时计算从第次迭代到第次迭代的均值,即:

称为遍历均值。

5. 可逆马尔可夫链

  • 定义

对于任意状态,对任意一个时刻满足:

或简写为:

则称此马尔可夫链为可逆马尔可夫链(reversible Markov chain),上式又被称作细致平衡方程(detailed balance equation)

直观上,如果有可逆马尔可夫链,那么以该马尔可夫链的平稳分布作为初始分布,进行随机状态转移,无论是面向过去还是面向未来,任何一个时刻的状态分布都是该平稳分布。

  • 定理

满足细致平衡方程的状态分布就是该马尔可夫链的平稳分布,即满足

证明:

该定理说明,可逆马尔可夫链一定有唯一平稳分布,给出了一个马尔可夫链有平稳分布的充分条件(不是必要条件)。也就是说,可逆马尔可夫链满足遍历定理的条件。

参考资料

ref:李航《统计学习方法》

你可能感兴趣的:(MCMC-1|机器学习推导系列(十五))