在掷硬币实验中估计出现正面向上的概率为 θ \theta θ,通过一系列的实验就可以得到n个观测结果,把每个观测结果都用一个随机变量 x i x_i xi进行表示,如果抛掷的硬币正面向上则记为1,反面向上则记为0。其表示形式为: x i = { 1 , 正 面 向 上 0 , 反 面 向 上 x_i=\left\{\begin{matrix} 1,正面向上\\ 0,反面向上 \end{matrix}\right. xi={1,正面向上0,反面向上
因此,随机变量 x i x_i xi属于二项分布,以 θ \theta θ的概率取值为1,表示形式为 x i ∼ b ( 1 , θ ) x_i\sim b(1,\theta) xi∼b(1,θ),二项分布的随机变量的概率函数可以表示为 P ( X = x ) = θ x ( 1 − θ ( 1 − x ) ) P(X=x)=\theta^x(1-\theta^{(1-x)}) P(X=x)=θx(1−θ(1−x))公式中x的取值为1或者0;
假设已经存在 θ \theta θ,根据极大似然估计和实验结果可以写成出现该种实验结果的联合概率 L ( θ ) L(\theta) L(θ):
L ( θ ) = P ( X 1 = x 1 ∣ θ ) . . . P ( X n = x n ∣ θ ) L(\theta)=P(X_1=x_1|\theta)...P(X_n=x_n|\theta) L(θ)=P(X1=x1∣θ)...P(Xn=xn∣θ)因为每次实验结果都是独立进行的,因此我们可以把上述联合概率表示为不同实验结果概率的连乘形式,我们把二项分布的概率函数代进上述联合概率得到: L ( θ ) = ∏ i = 1 n θ x i ( 1 − θ ) 1 − x i L(\theta)=\prod_{i=1}^n\theta^{x_i}(1-\theta)^{1-x_i} L(θ)=i=1∏nθxi(1−θ)1−xi
极大似然估计的思想是想找到 θ \theta θ使得观测结果出现的概率是最大的,也就是要最大化似然函数 L ( θ ) L(\theta) L(θ),因为对数函数的单调性,最大化似然函数等价于最大化似然函数的对数: m a x L ( θ ) = m a x l n ( L ( θ ) ) max\space L(\theta)=max\space ln(L(\theta)) max L(θ)=max ln(L(θ))
对 L ( θ ) L(\theta) L(θ)取对数能够将 L ( θ ) L(\theta) L(θ)从连乘变为连加,简化了运算: l n ( L ( θ ) ) = ∑ i = 1 n [ l n θ x i + l n ( 1 − θ ) 1 − x i ] ln(L(\theta))=\sum_{i=1}^n[ln\theta^{x_i}+ln(1-\theta)^{1-x_i}] ln(L(θ))=i=1∑n[lnθxi+ln(1−θ)1−xi] = ∑ i = 1 n x i l n θ + ( n − ∑ i = 1 n x i ) l n ( 1 − θ ) =\sum_{i=1}^nx_iln\theta+(n-\sum_{i=1}^nx_i)ln(1-\theta) =i=1∑nxilnθ+(n−i=1∑nxi)ln(1−θ)
l n ( L ( θ ) ) ln(L(\theta)) ln(L(θ))对 θ \theta θ进行求导并令其等于零: ∂ l n L ( θ ) ∂ θ = ∑ i = 1 n x i θ − n − ∑ i = 1 n x i 1 − θ = 0 \frac{\partial lnL(\theta)}{\partial \theta}=\frac{\sum_{i=1}^nx_i}{\theta}-\frac{n-\sum_{i=1}^nx_i}{1-\theta}=0 ∂θ∂lnL(θ)=θ∑i=1nxi−1−θn−∑i=1nxi=0
上面公式进行计算得到最后的 θ \theta θ: θ = ∑ i = 1 n x i n \theta=\frac{\sum_{i=1}^nx_i}{n} θ=n∑i=1nxi
极大似然估计就是根据样本的概率分布写出样本的联合概率的似然函数,通过最大化似然函数得到参数的估计值。
极大似然估计完全根据样本信息对参数 θ \theta θ进行估计,在贝叶斯估计中,我们利用的不仅是样本信息,还有先验信息,也就是在做实验之前,先对 θ \theta θ的取值有一个大概的判断,首先 θ \theta θ的取值肯定在0和1之间,然后我们觉得其在0.5附近取值的概率比较大,于是我们可以人为给 θ \theta θ一个先验概率密度函数: P ( θ ) = Γ ( a + b ) Γ ( a ) Γ ( b ) θ a − 1 ( 1 − θ ) b − 1 P(\theta)=\frac{\Gamma (a+b)}{\Gamma (a)\Gamma (b)}\theta^{a-1}(1-\theta)^{b-1} P(θ)=Γ(a)Γ(b)Γ(a+b)θa−1(1−θ)b−1上述公式也称为贝塔分布,该分布中的a和b需要我们事先进行定义,这样我们获得了样本数据的先验信息 P ( θ ) P(\theta) P(θ)和样本数据 x 1 , . . . , x n x_1,...,x_n x1,...,xn,然后我们根据样本信息调整 θ \theta θ,也就是获得参数 θ \theta θ的后验分布 P ( θ ∣ x 1 , . . . , x n ) P(\theta|x_1,...,x_n) P(θ∣x1,...,xn);
根据贝叶斯公式: P ( θ ∣ X ) = P ( θ ) P ( X ∣ θ ) P ( X ) P(\theta|X)=\frac{P(\theta)P(X|\theta)}{P(X)} P(θ∣X)=P(X)P(θ)P(X∣θ)上述后验公式 P ( θ ∣ x 1 , . . . , x n ) P(\theta|x_1,...,x_n) P(θ∣x1,...,xn)可以调整为: P ( θ ∣ x 1 , . . . , x n ) = P ( θ , x 1 , . . . , x n ) P ( x 1 , . . . , x n ) = P ( θ ) P ( x 1 ∣ θ ) . . . P ( x n ∣ θ ) ∫ P ( θ , x 1 , . . . , x n ) d θ P(\theta|x_1,...,x_n)=\frac{P(\theta,x_1,...,x_n)}{P(x_1,...,x_n)}=\frac{P(\theta)P(x_1|\theta)...P(x_n|\theta)}{\int P(\theta,x_1,...,x_n)d\theta} P(θ∣x1,...,xn)=P(x1,...,xn)P(θ,x1,...,xn)=∫P(θ,x1,...,xn)dθP(θ)P(x1∣θ)...P(xn∣θ)等价于 P ( θ ∣ x 1 , . . . , x n ) = Γ ( a + b ) Γ ( a ) Γ ( b ) θ a − 1 ( 1 − θ ) b − 1 P ( x 1 ∣ θ ) . . . P ( x n ∣ θ ) ∫ P ( θ , x 1 , . . . , x n ) d θ P(\theta|x_1,...,x_n)=\frac{\frac{\Gamma (a+b)}{\Gamma (a)\Gamma (b)}\theta^{a-1}(1-\theta)^{b-1}P(x_1|\theta)...P(x_n|\theta)}{\int P(\theta,x_1,...,x_n)d\theta} P(θ∣x1,...,xn)=∫P(θ,x1,...,xn)dθΓ(a)Γ(b)Γ(a+b)θa−1(1−θ)b−1P(x1∣θ)...P(xn∣θ)
在上面介绍极大似然估计的时候已经得到 P ( X 1 = x 1 ∣ θ ) . . . P ( X n = x n ∣ θ ) = ∏ i = 1 n θ x i ( 1 − θ ) 1 − x i P(X_1=x_1|\theta)...P(X_n=x_n|\theta)=\prod_{i=1}^n\theta^{x_i}(1-\theta)^{1-x_i} P(X1=x1∣θ)...P(Xn=xn∣θ)=i=1∏nθxi(1−θ)1−xi
因此可以得到: P ( θ ∣ x 1 , . . . , x n ) = Γ ( a + b ) Γ ( a ) Γ ( b ) θ a − 1 ( 1 − θ ) b − 1 ∏ i = 1 n θ x i ( 1 − θ ) 1 − x i ∫ P ( θ , x 1 , . . . , x n ) d θ P(\theta|x_1,...,x_n)=\frac{\frac{\Gamma (a+b)}{\Gamma (a)\Gamma (b)}\theta^{a-1}(1-\theta)^{b-1}\prod_{i=1}^n\theta^{x_i}(1-\theta)^{1-x_i} }{\int P(\theta,x_1,...,x_n)d\theta} P(θ∣x1,...,xn)=∫P(θ,x1,...,xn)dθΓ(a)Γ(b)Γ(a+b)θa−1(1−θ)b−1∏i=1nθxi(1−θ)1−xi
上述公式为只关于 θ \theta θ的密度函数, x 1 , . . . , x n x_1,...,x_n x1,...,xn都是给定的值,公式中的分母为关于 θ \theta θ的积分,因此分母与 θ \theta θ无关,为常数;
分子中的前半部分 Γ ( a + b ) Γ ( a ) Γ ( b ) \frac{\Gamma (a+b)}{\Gamma (a)\Gamma (b)} Γ(a)Γ(b)Γ(a+b)与 θ \theta θ无关,因此 P ( θ ∣ x 1 , . . . , x n ) ∝ θ a − 1 ( 1 − θ ) b − 1 ∏ i = 1 n θ x i ( 1 − θ ) 1 − x i = θ ∑ i = 1 n x i + a − 1 ( 1 − θ ) n − ∑ i = 1 n x i + b − 1 P(\theta|x_1,...,x_n)\propto \theta^{a-1}(1-\theta)^{b-1}\prod_{i=1}^n\theta^{x_i}(1-\theta)^{1-x_i}=\theta^{\sum_{i=1}^nx_i+a-1}(1-\theta)^{n-\sum_{i=1}^nx_i+b-1} P(θ∣x1,...,xn)∝θa−1(1−θ)b−1i=1∏nθxi(1−θ)1−xi=θ∑i=1nxi+a−1(1−θ)n−∑i=1nxi+b−1
可以看出,在先验概率中我们使用了贝塔分布,在用样本数据获得参数的后验分布仍为贝塔分布;
所以在贝叶斯估计中我们得到了关于参数在给定样本信息的后验分布,我们现在找到一个 θ \theta θ使得后验概率分布最大,通过对 θ ∑ i = 1 n x i + a − 1 ( 1 − θ ) n − ∑ i = 1 n x i + b − 1 \theta^{\sum_{i=1}^nx_i+a-1}(1-\theta)^{n-\sum_{i=1}^nx_i+b-1} θ∑i=1nxi+a−1(1−θ)n−∑i=1nxi+b−1进行对数变换然后对 θ \theta θ进行求导之后得到: θ = ∑ i = 1 n x i + a − 1 n + a + b − 2 \theta=\frac{\sum_{i=1}^nx_i+a-1}{n+a+b-2} θ=n+a+b−2∑i=1nxi+a−1
我们现在对比一下极大似然估计和贝叶斯估计;
在极大似然估计中,得到的 θ \theta θ为: θ = ∑ i = 1 n x i n \theta=\frac{\sum_{i=1}^nx_i}{n} θ=n∑i=1nxi
在贝叶斯估计中,得到的 θ \theta θ为: θ = ∑ i = 1 n x i + a − 1 n + a + b − 2 \theta=\frac{\sum_{i=1}^nx_i+a-1}{n+a+b-2} θ=n+a+b−2∑i=1nxi+a−1
当样本数据量趋向于无穷时,贝叶斯估计中的a和b可以忽略不计。贝叶斯估计得到的结果趋向于 θ = ∑ i = 1 n x i n \theta=\frac{\sum_{i=1}^nx_i}{n} θ=n∑i=1nxi这个结果恰好就是极大似然估计的结果;在贝叶斯估计中我们首先会给出先验信息,但是当样本信息足够大的时候,先验信息和样本信息相比显得微不足道,这样贝叶斯估计就近似于拿所有的样本信息估计参数;
以上情况是样本量非常大的情况,当样本量比较少时,假设只有1个样本,如果使用极大似然估计,得到的 θ \theta θ不是0就是1,这是一种非常极端的情况;但是在贝叶斯估计中,因为存在先验信息,获得的参数结果不会太极端,其值为 a − 1 a + b − 1 \frac{a-1}{a+b-1} a+b−1a−1或者为 a a + b − 1 \frac{a}{a+b-1} a+b−1a,这也是样本量非常小时贝叶斯估计相比于极大似然估计的优势;当样本量大时,两种方法的结果相似;