贝叶斯数据分析

1.基础知识

条件概率公式:

对于任意两个事件A和B,且P(A)>0,定义在A发生的条件下,B发生的条件概率为

P(B|A)=\frac{P(AB)}{P(A)}

从而P(AB)=P(A)P(B|A),这就是乘法公式

推而广之,设A_1,A_2,...,A_n是任意n个随机事件,则有更一般的乘法公式

P(A_1A_2...A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)...P(A_n|A_1A_2...A_{n-1})

全概率公式:

B_1,...B_n是样本空间\Omega中的一个完备事件群(又称为\Omega的一个划分)。换言之,它们满足下列条件:

(a)两两不相交,即B_i\bigcap B_j=\varnothing (i\neq j)

(b)它们的并(和)恰好是样本空间,即\bigcup_{i=1}^{n}B_i=\Omega

设A为\Omega中的一个事件,则全概率公式为

P(A)=P(A\Omega )=P(\bigcup_{i=1}^{n}AB_i)\\ =\sum_{i=1}^{n}P(AB_i)=\sum_{i=1}^{n}P(A|B_i)P(B_i)

这个公式将事件A分解成一些两两不相交的事件之并。直接计算P(A)不容易,但分解后的那些事件的概率容易计算,从而使P(A)的计算变得容易了。

2.贝叶斯公式

在全概率公式的条件下,即存在样本空间\Omega的一个完备事件群\left \{ B_1,...B_n \right \},设A为\Omega中的一个事件,且P(B_i)>0(i=1,...,n),P(A)>0,则按照条件概率的计算方法,有

P(B_i|A)=\frac{P(A|B_i)P(B_i)}{P(A)}=\frac{P(A|B_i)P(B_i)}{\sum_{j=1}^{n}P(A|B_j)P(B_j)}

示例:一种诊断某癌症的试剂,经临床实验有如下记录:癌症病人试验结果是阳性的概率为95%,非癌症病人试验结果是阴性的概率为95%。现用这种试剂在某社区进行癌症筛查,该社区癌症发病率为0.5%,问某人反应为阳性时,该如何判断他是否患有癌症?

解:设事件A表示“试验结果是阳性”,事件B表示“被诊断者患癌症”,则B_1=BB_2=\bar{B}构成一个完备事件群。由题意知:

P(A|B_1)=0.95,P(A|B_2)=0.05,P(B_1)=0.005,P(B_2)=0.995

现需计算P(B_1|A),P(B_2|A).由贝叶斯公式得

P(B_1|A)=\frac{P(A|B_1)P(B_1)}{P(A|B_1)P(B_1)+P(A|B_2)P(B_2)}\\ =\frac{0.95\times0.005}{0.95\times0.005+0.05\times0.995}\approx 0.087=8.7%

P(B_2|A)=1-P(B_1|A)=91.3%

练习:用贝叶斯公式解释“幸存者偏差”现象

用X表示飞机被击中的部位,取值集合为{机头,机翼,机身,机尾}

Y=0表示飞机坠毁

我们关心的是那些坠毁飞机被击中部位的分布

P(X|Y=0)=\frac{P(Y=0|X)P(X)}{P(Y=0)}\propto P(Y=0|X)P(X)

即关心X为哪些部位时,P(X|Y=0)比较大,从而应该加强这些部位的防护。由于二战期间的炮弹是不长眼睛的,所以可以将P(X)视为均匀分布,从而得到

P(X|Y=0)\propto P(Y=0|X)P(X)\propto P(Y=0|X)

类似地,可以得到

P(X|Y=1)\propto P(Y=1|X)P(X)\propto P(Y=1|X)

同时注意到P(Y=0|X)+P(Y=1|X)=1

我们仅能观察到返航飞机上弹痕的分布P(X|Y=1),所以当某一部位X(例如机身)的弹痕较多时,说明P(X=机身|Y=1)较大,根据上述关系得到P(Y=1|X=机身)较大,而P(Y=0|X=机身)和P(X=机身|Y=0)较小,从而说明机身不是关键部位;相反地,如果另一部位X(例如机翼)弹痕较少时,该部位往往可能是关键部位,应加强防护。

贝叶斯公式也可用于纠正一些“成功学谬误”

3.贝叶斯统计学与经典统计学的主要区别

基于总体信息、样本信息、先验信息进行统计推断的方法和理论称为贝叶斯统计学。

  • 贝叶斯统计学与经典统计学的主要区别在于是否利用先验信息。
  • 在使用样本上存在差别,贝叶斯方法重视已出现的样本,对尚未发生的样本值不予考虑。
  • 贝叶斯学派重视先验信息的收集、挖掘和加工,使之形成先验分布而参加到统计推断中来,以提高统计推断的效果。

古典学派与贝叶斯学派的主要分歧:

(1)对于概率含义的解释:

        古典学派:一个事件的概率可以用大量重复试验下的频率来解释

        贝叶斯学派:将主观概率认为是认识主体对事件发生机会的相信程度,因为有些事件不可重复

(2)对于参数的理解:

        古典学派:参数是一个固定值,虽然可能未知,但可以推断

        贝叶斯学派:参数是随机变量,具有特定分布

4.贝叶斯参数估计

贝叶斯参数估计是基于贝叶斯公式的参数估计方法

p(\theta|x)=\frac{p(x|\theta) p(\theta)}{p(x)}=\frac{p(x|\theta )p(\theta )}{\int p(x|\theta )p(\theta )d\theta }

        其中,p(\theta |x)是参数\theta的后验分布,p(x|\theta )是x关于\theta的似然函数,p(\theta )是参数\theta的先验分布,p(x)是x的边缘分布,亦称归一化因子

 4.1先验分布是均匀分布的掷硬币试验

示例:掷硬币试验,掷出n次,设随机变量X表示正面向上的次数,因此随机变量X服从二项分布Bin(n,\theta),\theta是硬币正面向上的概率,概率分布如下:

p(X=x|\theta )=C_n^x \theta^x(1-\theta)^{n-x},x=0,1,...,n,

        其中x表示观测到正面向上的次数。

x关于参数\theta的似然函数p(X|\theta )=C_n^x \theta^x(1-\theta)^{n-x},x=0,1,...,n,(将掷出n次硬币看做一次掷n枚,x枚朝上)

参数\theta的先验分布:选取[0,1]区间上的均匀分布

p(\theta )=1,0\leq \theta \leq 1

x的边缘分布(归一化因子)

p(x)=\int_{0}^{1}p(x|\theta )p(\theta )d\theta =\int_{0}^{1}\binom{n}{x}\theta ^x(1-\theta )^{n-x}d\theta =\frac{1}{1+n}

将上述三项代入贝叶斯公式,得到参数\theta的后验分布

p(\theta |x)=(1+n)\binom{n}{x}\theta ^x(1-\theta )^{n-x}

事实上,掷硬币试验的先验分布不一定为均匀分布。我们不妨将试验的先验分布设定为Beta分布,再次代入贝叶斯公式,来观察后验分布会有何变化。

4.2先验分布为Beta分布的掷硬币试验

首先对Beta分布进行简要介绍。

Beta分布是一组定义在[0,1]区间上的连续概率分布

Beta分布的概率密度函数为

Beta(\theta |a,b)=\left\{\begin{matrix} \frac{1}{B(a,b)}\theta ^{a-1}(1-\theta )^{b-1},0\leq \theta \leq 1\\ 0,others \end{matrix}\right.

        其中B(a,b)是Beta函数,定义为

B(a,b)=\frac{\Gamma (a)\Gamma (b)}{\Gamma (a+b)}

        其中\Gamma(\cdot )是Gamma函数,定义为

\Gamma (s)=\int_{0}^{\infty }x^{s-1}e^{-x}dx,s>0

参数a和b控制着Beta分布的形式

贝叶斯数据分析_第1张图片

  • 特别地,当a=b=1时,Beta分布就是[0,1]区间上的均匀分布
  • Beta分布通常作为二项分布的参数的先验分布使用

Beta分布的期望、众数、方差

mean=\frac{a}{a+b},mode=\frac{a-1}{a+b-2},var=\frac{ab}{(a+b)^2(a+b+1)}

回到掷硬币试验

将参数\theta的先验分布设定为Beta分布

Beta(\theta |a,b)=\frac{1}{B(a,b)}\theta ^{a-1}(1-\theta )^{b-1}

当a=b=1时,Beta分布就是[0,1]区间上的均匀分布

x的边缘分布(归一化因子)可以写为

p(x)=\int_{0}^{1}p(x|\theta )p(\theta )d\theta \\ =\int_{0}^{1}\binom{n}{x}\theta ^x(1-\theta )^{n-x}\frac{\Gamma (a+b)}{\Gamma (a)\Gamma (b)}\theta ^{a-1}(1-\theta )^{b-1}d\theta\\ =\binom{n}{x}\frac{\Gamma (a+b)}{\Gamma (a)\Gamma (b)}\int_{0}^{1}\theta ^{a+x-1}(1-\theta )^{b+n-x-1}d\theta \\ =\binom{n}{x}\frac{\Gamma (a+b)}{\Gamma (a)\Gamma (b)}\frac{\Gamma (a+x)\Gamma (b+n-x)}{\Gamma (a+b+n)}\int_{0}^{1}\frac{\Gamma (a+b+n)}{\Gamma (a+x)\Gamma (b+n-x)}\theta ^{a+x-1}(1-\theta )^{b+n-x-1}d\theta \\ =\binom{n}{x}\frac{\Gamma (a+b)}{\Gamma (a)\Gamma (b)}\frac{\Gamma (a+x)\Gamma (b+n-x)}{\Gamma (a+b+n)}\\ =\binom{n}{x}\frac{B(a+x,b+n-x)}{B(a,b)}

将x的边缘分布p(x)代入贝叶斯公式

p(\theta |x)=\frac{p(x|\theta )p(\theta )}{p(x)}\\ =\frac{\binom{n}{x}\theta ^x(1-\theta )^{n-x}\frac{1}{B(a,b)}\theta ^{a-1}(1-\theta )^{b-1}}{\binom{n}{x}\frac{B(a+x,b+n-x)}{B(a,b)} }\\ =Beta(\theta |a+x,b+n-x)

\theta的后验分布是参数为a+x和b+n-x的Beta分布。进一步可以发现,事实上a+x代表的即是硬币先验及后验中向上的总次数;b+n-x代表的是硬币先验及后验中向下的总次数。

后验概率密度最大的点(众数mode)是

\hat{\theta}_{MAP}=\frac{a+x-1}{a+b+n-2}

        称之为极大后验估计

考虑到极大似然估计(MLE)的结果为\hat{\theta }_{MLE}=\frac{x}{n},因此,后验众数可以看成极大似然估计结果和先验众数的加权组合。

\frac{a+x-1}{a+b+n-2}=w\times\frac{x}{n}+(1-w)\times\frac{a-1}{a+b-2}

        其中,w=\frac{n}{a+b+n-2}

当n变大,w趋向于1,后验众数趋向于极大似然估计结果

当a=b=1时,w=1,后验众数等于极大似然估计结果,极大后验估计结果与极大似然估计结果相同。

同理,若取后验均值作为贝叶斯参数估计的结果,\hat{\theta }_{Mean}=\frac{a+x}{a+b+n}

  • \hat{\theta }_{Mean}在小样本情形下比\hat{\theta }_{MLE}更合理
  • 当试验次数n增加时,\hat{\theta }_{Mean}趋向于\hat{\theta }_{MLE}
  • 使用先验原因:因为有些试验不能大量重复进行

贝叶斯数据分析_第2张图片

贝叶斯原理符合人们认知事物的模式:先验+数据=后验

 4.3后验预测分布

在已经掷出n次硬币并观测到x次正面向上的试验结果上,预测重新掷出n_f次硬币正面向上的次数y

后验预测分布:

首先,利用p(y,\theta)=p(y|\theta)p(\theta),第一次掷硬币与第二次结果无关两个条件,

p(y,\theta|n_f,x,n)=p(y|\theta,n_f,x,n)p(\theta|n_f,x,n)=p(y|n_f,\theta)p(\theta|x,n)

那么,后验预测分布为

p(y|n_f,x,n)=\int p(y,\theta|n_f,x,n)d\theta\\ =\int p(y|n_f,x,n,\theta)p(\theta|x,n)d\theta\\ =\int p(y|n_f,\theta)p(\theta|x,n)d\theta\\ =\int Bin(y|n_f,\theta)Beta(\theta|a+x,b+n-x)d\theta\\ =\int C_{n_f}^y\theta^y(1-\theta)^{n_f-y}\frac{\theta^{a+x-1}(1-\theta)^{b+n-x-1}}{B(a+x,b+n-x)}d\theta\\ =\frac{C^y_{n_f}}{B(a+x,b+n-x)}\int \theta ^{a+x+y-1}(1-\theta)^{b+n-x+n_f-y-1}d\theta\\ =C_{n_f}^y\frac{B(a+x+y,b+n-x+n_f-y)}{B(a+x,b+n-x)}

期望和方差分别为:

mean=n_f\frac{a+x}{a+b+n}\\ var=\frac{n_f(a+x)(b+n-x)(a+b+n+n_f)}{(a+b+n)^2(a+b+n+1)}

5.共轭先验

在硬币实验中,参数\theta的先验分布p(\theta)和后验分布p(\theta|x)都是Beta分布,称Beta分布是二项分布的共轭先验分布。

当先验分布和后验分布是同一种分布,称先验分布是似然函数的共轭先验分布。

只有给定似然函数,才能确定其共轭先验分布。也就是说,必须根据问题的性质选取其共轭先验分布。常见的共轭先验分布如下:

似然函数 参数 共轭先验分布
二项分布 成功概率 贝塔分布(Beta)
多项分布 成功概率 狄利克雷分布(Dirichlet)
泊松分布 参数\lambda 伽马分布(Gamma)
指数分布 参数\lambda 伽马分布(Gamma)
正态分布-方差已知 均值 正态分布(Normal,Gaussian)
正态分布-均值已知 方差 逆伽马分布(Inverse Gamma)

 对于一般形式的似然函数,共轭先验分布可能不存在

若选取某种分布作为参数\theta的先验分布,x的边缘分布(归一化因子)很可能没有解析表达式

p(x)=\int_{0}^{1}p(x|\theta)p(\theta)d\theta

这将导致参数\theta的后验分布没有解析表达式。解决方法:(1)Markov Chain Monte Carlo(MCMC)(2)Variational Inference(VI)

6.贝叶斯方法的应用

潜在狄利克雷的分配模型(LDA)

贝叶斯数据分析_第3张图片

贝叶斯数据分析_第4张图片 

贝叶斯数据分析_第5张图片

 

 

你可能感兴趣的:(概率论,nlp,自然语言处理)