Bayesian inference problem, MCMC and variational inference

Contents

  • The Bayesian inference problem
    • What is Bayesian inference?
    • Computational difficulties
  • Markov Chains Monte Carlo (MCMC) -- A sampling based approach
  • Variational Inference (VI) -- An approximation based approach
    • The approximation approach
    • Family of distribution
    • Kullback-Leibler divergence
    • Optimisation process and intuition
  • MCMC v.s. VI
  • References

The Bayesian inference problem

What is Bayesian inference?

  • 简单来说,贝叶斯推理就是基于贝叶斯范式进行统计推理。贝叶斯范式的基本思想就是利用贝叶斯定理来表达后验知识 p ( θ ∣ x ) p(\theta|x) p(θx) (the “posterior”)、先验知识 p ( θ ) p(\theta) p(θ) (the “prior”) 和似然 p ( x ∣ θ ) p(x|\theta) p(xθ) (the “likelihood”) 之间的关系
    Bayesian inference problem, MCMC and variational inference_第1张图片

Computational difficulties

  • 在很多场景下,prior 和 likelihood 都是已知的,但归一化因子 evidence 却需要通过积分得到:
    在这里插入图片描述上述积分在高维情况下将变得难以解决,因此需要使用一些近似方法去估计后验概率
  • 常用的近似方法有 Markov Chain Monte CarloVariational Inference (one should keep in mind that these methods can also be precious when facing other computational difficulties related to Bayesian inference)

Markov Chains Monte Carlo (MCMC) – A sampling based approach

  • 马尔可夫链蒙特卡罗法 (Markov Chain Monte Carlo, MCMC) (MCMC 对待采样概率分布是否归一化并不敏感,即使不进行归一化也可以对其进行采样)
    Bayesian inference problem, MCMC and variational inference_第2张图片

Variational Inference (VI) – An approximation based approach

The approximation approach

  • 与 MCMC 基于马尔可夫链进行采样不同,变分推理旨在从指定的概率分布族中找到复杂待采样概率分布的一个最佳近似概率分布,实际上就是解决一个优化问题
  • 具体而言,首先需要定义一个参数化的概率分布族,其中的不同概率分布由相应的参数决定 (e.g. 正态分布由 μ \mu μ σ \sigma σ 控制)
    在这里插入图片描述然后需要从 F Ω F_\Omega FΩ 中找到一个最接近待采样概率分布的概率分布 ω ∗ \omega^* ω,也就是解如下最优化问题
    在这里插入图片描述其中, π \pi π 为待采样概率分布, E ( p , q ) E(p,q) E(p,q) 用于衡量两个概率分布之间的距离。在变分推理中, E ( p , q ) E(p,q) E(p,q)KL 散度,优化过程采用梯度下降 (由于 KL 散度对 p p p 是否归一化不敏感,因此变分推理不要求对待采样概率分布进行归一化)
    Bayesian inference problem, MCMC and variational inference_第3张图片

Family of distribution

  • 概率分布族的选择实际上是一个非常强的先验信息,它决定了对待采样概率分布近似的 bias 以及优化过程的复杂度。如果分布族过于简单,那么近似的 bias 就会特别大,但优化过程很简单,反之 bias 会较小,但优化过程就比较复杂。因此,我们有必要维持好 bias 和复杂度之间的平衡
    Bayesian inference problem, MCMC and variational inference_第4张图片

平均场变分族 (mean-field variational family)

  • 在平均场变分族中,随机向量的所有分量都是独立的,因此概率密度函数可以写为下式:
    在这里插入图片描述其中, z z z m m m 维的随机向量, f j f_j fj z z z 的第 j j j 个分量的概率密度函数

Kullback-Leibler divergence

  • 在寻找待采样概率分布的近似分布时,我们希望该优化过程对归一化因子不敏感,而使用 KL 散度作为度量标准可以很好地满足这一条件。设 π \pi π 为待采样概率分布, C C C 为归一化因子
    在这里插入图片描述
    在这里插入图片描述因此在使用 KL 散度作为度量标准时,优化过程对归一化因子不敏感,我们不必对待采样概率进行归一化:
    在这里插入图片描述

Optimisation process and intuition

在这里插入图片描述

  • 上述最优化问题可以利用梯度下降等方法寻找最优解

Intuition

  • 为了更好地理解上述优化过程,下面以贝叶斯推理为例进行说明:
    Bayesian inference problem, MCMC and variational inference_第5张图片从最后一项中可以看到,最佳近似后验概率分布会使得基于观测数据 x x x期望对数似然尽量大,同时使得该近似后验分布与先验分布之间的 KL 散度尽量小 (prior/likelihood balance)

MCMC v.s. VI

  • MCMC 和 VI 有着不同的应用场合。一方面,MCMC 的采样过程计算量较大但 bias 较小,因此适用于需要得到精准结果而不在乎时间开销的场合。另一方面,VI 中概率分布族的选择和优化过程均会引入了 bias,相比 MCMC 而言 bias 较大计算开销较小,因此适用于需要快速计算的大规模推理问题

References

  • Bayesian inference problem, MCMC and variational inference
  • more about VI: Variational Inference: A Review for Statisticians
  • more about MCMC: Introduction to Markov Chain Monte Carlo、An Introduction to MCMC for Machine Learning
  • more about Gibbs Sampling applied to LDA: Tutorial on Topic Modelling and Gibbs Sampling、lecture note on LDA Gibbs Sampler

你可能感兴趣的:(机器学习,机器学习,算法,概率论)