1.1 说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果,其中k次的结果为1,这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。
解:
三要素分别是模型、策略、算法。
模型:伯努利模型,即定义在取值为0与1的随机变量上的概率分布。
策略:极大似然估计和贝叶斯估计的策略都是对数损失函数,只不过贝叶斯估计使用的是结构风险最小化。
算法:极大似然估计所使用的算法是求取经验风险函数的极小值,贝叶斯估计所使用的算法是求取参数的后验分布,然后计算其期望。
定义 A A A为取值为0或1的随机变量,并设 A = 1 A=1 A=1的概率是 θ \theta θ,即:
P ( A = 1 ) = θ , P ( A = 0 ) = 1 − θ P(A=1) = \theta, P(A=0) = 1-\theta P(A=1)=θ,P(A=0)=1−θ
独立抽取 n n n个同分布的随机变量 A 1 , A 2 , … , A n A_1, A_2, \dots, A_n A1,A2,…,An。使用极大似然估计即求取以下经验风险函数的极值点:
L ( P ) = − ∑ i = 1 n log P ( A i ) = − k log θ − ( n − k ) log ( 1 − θ ) L(P)=-\sum_{i=1}^n \text{log}P(A_i)=-k\text{log}\theta - (n-k)\text{log}(1-\theta) L(P)=−i=1∑nlogP(Ai)=−klogθ−(n−k)log(1−θ)
即求 θ ′ \theta' θ′,使得:
∂ L ( P ) ∂ P ∣ θ ′ = − k θ ′ − n − k 1 − θ ′ = 0 \left. \frac{\partial L(P)}{\partial P}\right|_{\theta'} = -\frac{k}{\theta'}-\frac{n-k}{1-\theta'}=0 ∂P∂L(P)∣∣∣∣θ′=−θ′k−1−θ′n−k=0
即得 θ \theta θ的估计值为 θ = k n \theta=\frac{k}{n} θ=nk。
如果使用贝叶斯估计,则将 A = 1 A=1 A=1的概率 θ \theta θ也看做是一个随机变量,假设其先验分布为均匀分布,即:
f ( θ ) = 1 f(\theta)=1 f(θ)=1
那么根据贝叶斯定理,其后验分布为:
f ( θ ∣ A 1 , … , A n ) = f ( A 1 , … , A n ∣ θ ) ⋅ f ( θ ) ∫ f ( A 1 , … , A n ) ⋅ f ( θ ) d θ f(\theta|A_1, \dots, A_n) = \frac{f(A_1, \dots, A_n|\theta)\cdot f(\theta)}{\int f(A_1, \dots, A_n)\cdot f(\theta)\text{d}\theta} f(θ∣A1,…,An)=∫f(A1,…,An)⋅f(θ)dθf(A1,…,An∣θ)⋅f(θ)
上式中分母与 θ \theta θ无关,所以可忽略,即:
f ( θ ∣ A 1 , … , A n ) ∝ θ k ( 1 − θ ) ( n − k ) = θ k + 1 − 1 ( 1 − θ ) n − k + 1 − 1 f(\theta|A_1, \dots, A_n) \propto \theta^k(1-\theta)^{(n-k)}=\theta^{k+1-1}(1-\theta)^{n-k+1-1} f(θ∣A1,…,An)∝θk(1−θ)(n−k)=θk+1−1(1−θ)n−k+1−1
此时,如果想要最大化后验概率,即求 θ ′ \theta' θ′使得 f ( θ ′ ∣ A 1 , … , A n ) f(\theta'|A_1, \dots, A_n) f(θ′∣A1,…,An)最大,只需求解 θ k ( 1 − θ ) ( n − k ) \theta^k(1-\theta)^{(n-k)} θk(1−θ)(n−k)的极值点。最终所求结果与最大似然估计法一样。
注意,我们还可以求解在均方(期望)意义下 θ \theta θ的值,事实上,参数为 a , b a, b a,b的Beta分布的概率密度函数如下
f ( p ; a , b ) = Γ ( a + b ) Γ ( a ) Γ ( b ) p a − 1 ( 1 − p ) b − 1 f(p;a, b) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}p^{a-1}(1-p)^{b-1} f(p;a,b)=Γ(a)Γ(b)Γ(a+b)pa−1(1−p)b−1
因此可以看出, θ \theta θ的后验分布服从参数为 k + 1 k+1 k+1和 n − k + 1 n-k+1 n−k+1的Beta分布,即:
f ( θ ∣ A 1 , … , A n ) = Γ ( n + 2 ) Γ ( k + 1 ) Γ ( n − k + 1 ) θ k + 1 − 1 ( 1 − θ ) n − k + 1 − 1 f(\theta|A_1, \dots, A_n)=\frac{\Gamma(n+2)}{\Gamma(k+1)\Gamma{(n-k+1)}}\theta^{k+1-1}(1-\theta)^{n-k+1-1} f(θ∣A1,…,An)=Γ(k+1)Γ(n−k+1)Γ(n+2)θk+1−1(1−θ)n−k+1−1
因此,上式的期望(即 θ \theta θ的估计值)为:
E ( θ ) = k + 1 n + 2 E(\theta)=\frac{k+1}{n+2} E(θ)=n+2k+1
ps: 感谢评论区中 jiajinrang93 大佬的指正。
参考了http://blog.csdn.net/familyshizhouna/article/details/70160782 的解答过程,但是没看懂其关于第一题的解答,所以就自己写答案了。
还参考了《统计学完全教程》中的相关内容