第七章 贝叶斯分类器-机器学习(周志华) 参考答案

机器学习(周志华) 参考答案 第七章 贝叶斯分类器

机器学习(周志华西瓜书) 参考答案 总目录

  • http://blog.csdn.net/icefire_tyh/article/details/52064910

    看了半天依然没看懂如何去优化贝叶斯网,9,10题先空着

     
     
     
     
  • 1
  • 2

1.试使用极大似然法估算西瓜数据集3.0中前3个属性的类条件概率。

极大似然法要先假定一种概率分布形式。
色泽:
对于好瓜,假设
P(色泽=青绿|好瓜)= σ1
P(色泽=乌黑|好瓜)= σ2
P(色泽=浅白|好瓜)= σ3 = 1σ1σ2
L(σ)=iP(=xi|)=σ31σ42(1σ1σ2)
L(σ1)=σ42σ21(34σ13σ2)
L(σ2)=σ31σ32(44σ15σ2)
令L (σ1)=0L(σ2)=0 σ1=38 σ1=12 σ3=18
可以看出 σ1,σ2,σ3 分别对应他们在样本中出现的频率。

对于坏瓜以及另外两种属性计算方式相同,得出类似的结果。


2.试证明:条件独立性假设不成立时,朴素贝叶斯分类器任有可能产生最优分类器。

朴素贝叶斯分类器就是建立在条件独立性假设上的。当有不独立的属性时,假如所有样本不独立的属性取值相同时分类也是相同的,那么此时朴素贝叶斯分类器也将产生最优分类器。


3.试编程实现拉普拉斯修正的朴素贝叶斯分类器,并以西瓜数据集3.0为训练集,并对“测1”样本进行分类。

  • http://blog.csdn.net/icefire_tyh/article/details/52167211

4.实践中用式(7.15)决定分类类别时,若数据的维度非常高,则连乘的概率结果会非常接近0并导致下溢。试述防止下溢的可能方案。

若连乘的式子太多,导致乘积接近0。由于属性个数是已知的,可以对每个乘式做适当次的开方处理,可以保证结果不会为0。另外也可以对各项取对数,当累加太多时,可能导致和接近负无穷。可以对每个加数除以属性的个数,来防止溢出。


5.试证明:二分类任务中两类数据满足高斯分布且方差相同时,线性判别分析产生最优贝叶斯分类器。

假设1类样本均值为 u1 ,2类样本均值为 u2
由于数据满足同方差的高斯分布,当样本足够大时,可以认为

线性判别分析公式 J=|wT(u1u2)|2wT(Σ1+Σ2)w 求最大值
1J=wT(Σ1+Σ2)w|wT(u1u2)|2=i(1yi)|wT(xiu1)|2+yi|wT(xiu2)|2|wT(u1u2)|2 求最小值

最优贝叶斯分类器使每个训练样本的后验概率 P(c|x) 最大,对应线性判别分析中,即离对应分类的中心距离(平方)除以两个分类中心的距离(平方)越小。
即求 i(1yi)|wT(xiu1)|2+yi|wT(xiu2)|2|wT(u1u2)|2

两个式子相同,所以线性判别分析产生最优贝叶斯分类器。


6.试编程实现AODE分类器,并以西瓜数据集3.0为训练集,并对“测1”样本进行分类。

  • http://blog.csdn.net/icefire_tyh/article/details/52167263

7.给定d个二值属性的分类任务,假设对于任何先验概率的估算需要30个样本。试估计AODE中估算先验概率 p(c,xi) 所需要的样本数。

显然对于正负样本,各属性对应的取值 xi 需要出现30次。
最好的情况下,只需要60个样本就能就能估算概率。其中30个 xi 属性的样本取值为1,30个 xi 属性的样本取值为0。尽管这不符合实际情况(相同属性取值不同)。
最坏的情况下,要60d个样本才能估算。其中每个样本只有一个属性和测试样本 xi 相同,其余都是另一个取值。


8.考虑图7.3,证明:在同父结构中,若 x1 的取值未知,则 x3x4 不成立。在顺序结构中, yz|x 成立,但 yz 不成立。

①. x1 已知时, p(x1,x3,x4)=p(x1)p(x3|x1)p(x4|x1)
p(x3,x4|x1)=p(x1,x3,x4)p(x1)=p(x3|x1)p(x4|x1)
所以 x3x4|x1

x1 未知时, p(x1,x3,x4)=p(x1)p(x3|x1)p(x4|x1)
p(x3,x4)=x1p(x1,x3,x4)=x1p(x1)p(x3|x1)p(x4|x1)
由于不知道 p(x3|x1)p(x4|x1) ,所以无法得出 p(x3,x4)=p(x3)p(x4)

②. x 已知时, p(x,y,z)=p(z)p(x|z)p(y|x)
p(y,z|x)=p(x,y,z)p(x)=p(z)p(x|z)p(x)p(y|x)=p(z|x)p(y|x)
所以 yz|x

x 未知时, p(x,y,z)=p(z)p(x|z)p(y|x)
p(y,z)=xp(x,y,z)=p(z)xp(x|z)p(y|x)
无法得出 p(y,z)=p(y)p(z)

原文链接:http://blog.csdn.net/icefire_tyh/article/details/52167273

你可能感兴趣的:(第七章 贝叶斯分类器-机器学习(周志华) 参考答案)