李航博士《统计学习方法》第一章课后习题参考答案

1.1 说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果,其中k次的结果为1,这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。

答:统计学习方法由三要素构成,可以简单地表示为:

方法 = 模型 + 策略 + 算法

模型:即伯努利模型,是在同样的条件下重复地、相互独立地进行的只有0或1两种结果的随机试验。n重伯努利试验中,恰有k次结果为1的条件概率表达式为:

P n ( k ) = C n k p k ( 1 − p ) n − k P_n(k) = C_n^kp^k(1 - p) ^{n-k} Pn(k)=Cnkpk(1p)nk

策略:二者使用的损失函数均为对数损失函数,即: L ( Y , P n ( k ) ) = − l o g P n ( k ) L(Y,P_n(k)) = -logP_n(k) L(Y,Pn(k))=logPn(k)

所不同的是,极大似然估计(Maximum Likelihood Estimation,MLE)使用经验风险最小化,经验风险表达式为:
R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) R_{emp}(f)=\dfrac{1}{N}\displaystyle\sum_{i=1}^N L(y_i,f(x_i) Remp(f)=N1i=1NL(yi,f(xi)

而贝叶斯估计(Bayesian Estimation)使用结构风险最小化,结构风险表达式为:
R s r m ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) + λ J ( f ) R_{srm}(f)=\dfrac{1}{N}\displaystyle\sum_{i=1}^N L(y_i,f(x_i)+\lambda J(f) Rsrm(f)=N1i=1NL(yi,f(xi)+λJ(f)

算法:引用课本图1.6,如下:

李航博士《统计学习方法》第一章课后习题参考答案_第1张图片
二者分别是在上图所示基础上,以风险最小化求得待估计参数。

求解过程:

  1. 极大似然估计:
    似然函数:
    L ( P ) = ∏ P ( A i ) = p k ( 1 − p ) n − k L(P) = \prod P(A_i)=p^k(1-p)^{n-k} L(P)=P(Ai)=pk(1p)nk
    其中, p p p ( 0 < p < 1 ) (0(0<p<1)是单次实验中结果为1的概率, A i A_i Ai代表第 i i i 次随机试验。
    对数似然函数:
    l n L ( P ) = k l n p + ( n − k ) l n ( 1 − p ) lnL(P)=klnp+(n-k)ln(1-p) lnL(P)=klnp+(nk)ln(1p)
    p p p求偏导,并令其为零。可得:
    k p + n − k 1 − p = 0 \dfrac{k}{p}+\dfrac{n-k}{1-p}=0 pk+1pnk=0
    解得: p = k n p=\dfrac{k}{n} p=nk,唯一驻点,即 p p p 的极大似然估计为 p ~ = k n \tilde{p}=\dfrac{k}{n} p~=nk

  2. 贝叶斯估计
    极大似然估计给出了 p p p的具体值,而贝叶斯估计假定 p p p满足某种随机分布。此处参考CSDN博文,用 β \beta β分布来估计 p p p,通过贝叶斯公式可以得到:
    P ( p ∣ A i ) = P ( A i ∣ p ) P ( p ) P ( A i ) P(p|A_i)=\dfrac{P(A_i|p) P(p)}{P(A_i)} P(pAi)=P(Ai)P(Aip)P(p)
    p p p ~ B e t a ( p ∣ α , β ) Beta(p|\alpha,\beta) Beta(pα,β),其概率密度函数为:
    P ( μ ∣ α , β ) = Γ ( α + β ) Γ ( α ) Γ ( β ) μ α − 1 ( 1 − μ ) β − 1 P(\mu|\alpha,\beta)= \dfrac{\Gamma(\alpha+\beta)}{\Gamma(\alpha) \Gamma(\beta)} \mu^{\alpha-1} (1-\mu)^{\beta-1} Pμα,β=Γ(α)Γ(β)Γ(α+β)μα1(1μ)β1
    (该部分未完待续)

1.2 通过经验风险最小化推到极大似然估计。证明模型是条件概率分布,当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计

条件概率分布: P θ ( Y ∣ X ) P_\theta(Y|X) Pθ(YX)
对数损失函数: L ( Y , P n ( k ) ) = − l o g P θ ( Y ∣ X ) L(Y,P_n(k)) = -logP_\theta(Y|X) L(Y,Pn(k))=logPθ(YX)

经验风险为:
R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) = 1 N ∑ i = 1 N − l o g P θ ( Y ∣ X ) = − 1 N l o g ∏ P θ ( Y ∣ X ) R_{emp}(f)=\dfrac{1}{N}\displaystyle\sum_{i=1}^N L(y_i,f(x_i)=\dfrac{1}{N}\displaystyle\sum_{i=1}^N -logP_\theta(Y|X)=-\dfrac{1}{N} log\prod P_\theta(Y|X) Remp(f)=N1i=1NL(yi,f(xi)=N1i=1NlogPθ(YX)=N1logPθ(YX)
观察上式可知,经验风险最小化就转化成了
a r g max ⁡ θ P t h e t a ( Y ∣ X ) arg \displaystyle\max_\theta P_theta(Y|X) argθmaxPtheta(YX)

这个就恰好对应图中的极大似然估计。
证毕

参考链接来源大佬们:

https://blog.csdn.net/bumingqiu/article/details/73761602
https://blog.csdn.net/jteng/article/details/60334628
https://fxnfk.blog.csdn.net/article/details/70160782
https://blog.csdn.net/pipisorry/article/details/51471222

你可能感兴趣的:(统计学习方法,机器学习,概率论)