贝叶斯推断

贝叶斯推断

贝叶斯模型观点:参数模型 q(x;θ) q ( x ; θ ) 中的参数 θ θ 被确定的变量(deterministic variable)。

贝叶斯预测分布

训练样本是 D={xi}ni=1 D = { x i } i = 1 n , p(θ|D) p ( θ | D ) 是给定训练样本 D D 的条件下参数 θ θ 的后验概率(posterior probability of parameter θ θ ) , p(θ) p ( θ ) 是未观测到训练样本 D D 时, θ θ 的先验概率(prior propability).

  • 有似然(likelihood):
    p(D|θ)=i=1nq(xi|θ)(1) (1) p ( D | θ ) = ∏ i = 1 n q ( x i | θ )

    其中参数模型 q(x|θ) q ( x | θ ) 作为条件概率。

[注:因为参数被确定,即认为是已知条件,所以模型是条件概率的形式]。

  • 有联合概率:
    p(D,θ)=p(D|θ)p(θ)(2) (2) p ( D , θ ) = p ( D | θ ) p ( θ )
  • 参数 D D 的边缘分布:

    p(D)=p(D,θ)dθ(3) (3) p ( D ) = ∫ p ( D , θ ) d θ

    带入得:
    p(D)=(i=1nq(xi|θ))p(θ)dθ(4) (4) p ( D ) = ∫ ( ∏ i = 1 n q ( x i | θ ) ) p ( θ ) d θ

  • 贝叶斯推断的解(Bayesian predictive distribution)
    P^(Bayes)(x) P ^ ( B a y e s ) ( x ) ,是参数模型
    q(x|θ) q ( x | θ ) 在整个后验分布 p(θ|D) p ( θ | D ) 上的期望:

    P^(Bayes)(x)=q(x|θ)p(θ|D)dθ(5) (5) P ^ ( B a y e s ) ( x ) = ∫ q ( x | θ ) p ( θ | D ) d θ

  • 由贝叶斯定理:

    p(θ|D)=p(D|θ)p(θ)p(D)=ni=1q(xi|θ)p(θ)ni=1q(xi|θ)p(θ)dθ(2)(6) (2) p ( θ | D ) = p ( D | θ ) p ( θ ) p ( D ) (6) = ∏ i = 1 n q ( x i | θ ) p ( θ ) ∫ ∏ i = 1 n q ( x i | θ ′ ) p ( θ ′ ) d θ ′

我的理解:分子的 θ θ 与分母的 θ θ ′ 区别开来是因为分母的 θ θ ′ 要做积分运算。

最后得到:

P^(Bayes)(x)=q(x|θ)ni=1q(xi|θ)p(θ)ni=1q(xi|θ)p(θ)dθdθ(7) (7) P ^ ( B a y e s ) ( x ) = ∫ q ( x | θ ) ∏ i = 1 n q ( x i | θ ) p ( θ ) ∫ ∏ i = 1 n q ( x i | θ ′ ) p ( θ ′ ) d θ ′ d θ

Bayes VS MLE

如图:
贝叶斯推断_第1张图片

  • 参数模型 q(x|θ) q ( x | θ ) 是一个概率密度函数族,实践中,由于误差等因素可能真实数据分布 p(x) p ( x ) 并不包含在参数模型中,如图,数据真实分布 p(x) p ( x ) 在右侧;
  • MLE找到的最大似然 P^ML(x) P ^ M L ( x ) 等价于利用KL散度(empirical KL divergence) 去找到 p(x) p ( x ) 在参数模型 q(x|θ) q ( x | θ ) 上的映射。
  • 贝叶斯推断的 P^(Bayes)(x) P ^ ( B a y e s ) ( x ) 并不限制在参数模型函数族上,如图,它比MLE的估计更接近真实分布 p(x) p ( x )

  • 贝叶斯推断和MLE根本的不同在于参数 θ θ 是确定的参数还是随机变量;更抽象的,先验概率 p(x) p ( x ) 在贝叶斯推断下有主观知识(subjective),这可以影响所求的解。另一方面,MLE是客观(objective)的,它的解完全由数据(data)来决定。

  • *

计算问题

由于参数 θ θ 的维度过高,会导致以下的公式计算困难:

P^(Bayes)(x)=q(x|θ)p(θ|D)dθ(*) (*) P ^ ( B a y e s ) ( x ) = ∫ q ( x | θ ) p ( θ | D ) d θ

P^(Bayes)(x)=q(x|θ)ni=1q(xi|θ)p(θ)ni=1q(xi|θ)p(θ)dθdθ(**) (**) P ^ ( B a y e s ) ( x ) = ∫ q ( x | θ ) ∏ i = 1 n q ( x i | θ ) p ( θ ) ∫ ∏ i = 1 n q ( x i | θ ′ ) p ( θ ′ ) d θ ′ d θ

解决办法:

  1. 分析地得到后验概率 p(θ|D) p ( θ | D ) 一种方法是选择先验概率 p(θ),从而显式地得到后验概率 p(θ|D) p ( θ | D ) 的参数形式。
  2. 使用从后验概率中 p(θ|D) p ( θ | D ) 提取的点 θ^ θ ^ 去近似。
    参考:《统计机器学习导论》

你可能感兴趣的:(概率论)