《统计学习方法》第4章 课后题答案

这一章主要讲了朴素贝叶斯方法,书上的介绍比较简单,但是搞定第二个习题的过程中吃了很多苦头。


4.1 用极大似然估计法推出朴素贝叶斯法中的概率估计公式(4.8)及公式(4.9)

证明:
题干中要推导的两个公式分别如下:

P(Yck)=Ni=1I(yi=ck)N,k=1,2,,K

P(X(j)=ajl|Y=ck)=Ni=1I(x(j)i=ajl,yi=ck)Ni=1I(yi=ck)

这两个公式的推导过程很相似,所以这里只解决第一个(偷下懒,码公式很麻烦的┑( ̄Д  ̄)┍)

P(Y=ck)=p ,同时记 Ni=1I(yi=ck)=M 。那么独立同分布随机抽取 N 个样本,其中 Y=ck 恰好发生 M 次的概率为:

P(p)=pM(1p)(Nm)

极大似然估计就是要寻找一个 p 的值 p 让概率 P(p) 最大,该问题等价于求 p 使得 logP(p) 最大(因为 log 函数是递增的)那么有:
d logP(p)dp=MpNM1p=MNpp(1p)

令上式等于0即可求得极值点:
p=MN

得证。


4.2 用贝叶斯估计法推出朴素贝叶斯法中的概率估计公式(4.10)及公式(4.11)

证明:
题干中要证明的两个公式分别如下:

Pλ(X(j)=ajl|Y=ck)=Ni=1I(x(j)i=ajl,yi=ck)+λNi=1I(yi=ck)+Sjλ

Pλ(Y=ck)=Ni=1I(yi=ck)+λN+Kλ

因为太懒时间的原因,这里我们只证明形式简单的第二个公式,第一个公式的证明类似。

假设 Pλ(Y=ci)=πi,i=(1,2,,K) 是随机变量,且 πi,i=(1,2,,K) 的先验分布是参数为 λ 的对称Dirichlet分布:

P(π1,,πK)=1B(λ)i=1Kπλ1i(1)

现有观测数据 T={(x1,y1),,(xN,yN)} ,记 Mi=Nj=1I(yj=ci)i=(1,2,,K) 为随机变量。用 π 表示 π1,,πK ,用 M 表示 M1,,MK 。使用观测数据改进上述先验分布,以获取后验分布:

P(π|M)=P(M|π)P(π)P(M|π)P(π)dπ(2)

其中上式的分母 P(M|π)P(π)dπ π 无关,可忽略。假设 P(M|π) 服从多项分布:

P(M|π)=πM11πMKK(3)

将(1),(3)式代入(2)中可得:
P(π|M)i=1Kπλ+Mi1i

由上式可以看出,后验概率 P(π|M) 也服从Dirichlet分布,因此 Pλ(Y=ck) 的值可取随机变量 πi 的期望:
E(πi)=Mi+λN+Kλ

得证。


后记:
在解决第二个问题之前我参考了博主xiaoxiao_wen的答案,但是TA的解答用了一个很诡异的方法,我没有看懂,并且貌似也没有用到贝叶斯估计的样子。所以就只能自己动手了。有不正确的地方希望大神指正。

证明过程参考了StackExchange上一个大神的答案。

你可能感兴趣的:(统计学习方法)