机器学习(周志华西瓜书) 参考答案 总目录
看了半天依然没看懂如何去优化贝叶斯网,9,10题先空着
极大似然法要先假定一种概率分布形式。
色泽:
对于好瓜,假设
P(色泽=青绿|好瓜)=σ1
P(色泽=乌黑|好瓜)=σ2
P(色泽=浅白|好瓜)=σ3=1−σ1−σ2
L(σ)=⋂iP(色泽=xi|好瓜)=σ31σ42(1−σ1−σ2)
L′(σ1)=σ42σ21(3−4σ1−3σ2)
L′(σ2)=σ31σ32(4−4σ1−5σ2)
令L′(σ1)=0,L′(σ2)=0得σ1=38,σ1=12,σ3=18
可以看出σ1,σ2,σ3分别对应他们在样本中出现的频率。
对于坏瓜以及另外两种属性计算方式相同,得出类似的结果。
朴素贝叶斯分类器就是建立在条件独立性假设上的。当有不独立的属性时,假如所有样本不独立的属性取值相同时分类也是相同的,那么此时朴素贝叶斯分类器也将产生最优分类器。
若连乘的式子太多,导致乘积接近0。由于属性个数是已知的,可以对每个乘式做适当次的开方处理,可以保证结果不会为0。另外也可以对各项取对数,当累加太多时,可能导致和接近负无穷。可以对每个加数除以属性的个数,来防止溢出。
假设1类样本均值为u1,2类样本均值为u2
由于数据满足同方差的高斯分布,当样本足够大时,可以认为
线性判别分析公式J=|wT(u1−u2)|2wT(Σ1+Σ2)w求最大值
对1J=wT(Σ1+Σ2)w|wT(u1−u2)|2=∑i(1−yi)|wT(xi−u1)|2+yi|wT(xi−u2)|2|wT(u1−u2)|2求最小值
最优贝叶斯分类器使每个训练样本的后验概率P(c|x)最大,对应线性判别分析中,即离对应分类的中心距离(平方)除以两个分类中心的距离(平方)越小。
即求∑i(1−yi)|wT(xi−u1)|2+yi|wT(xi−u2)|2|wT(u1−u2)|2的最小值
两个式子相同,所以线性判别分析产生最优贝叶斯分类器。
显然对于正负样本,各属性对应的取值xi需要出现30次。
最好的情况下,只需要60个样本就能就能估算概率。其中30个xi属性的样本取值为1,30个xi属性的样本取值为0。尽管这不符合实际情况(相同属性取值不同)。
最坏的情况下,要60d个样本才能估算。其中每个样本只有一个属性和测试样本xi相同,其余都是另一个取值。
①.x1已知时,p(x1,x3,x4)=p(x1)p(x3|x1)p(x4|x1)
p(x3,x4|x1)=p(x1,x3,x4)p(x1)=p(x3|x1)p(x4|x1)
所以x3⊥x4|x1。
x1未知时,p(x1,x3,x4)=p(x1)p(x3|x1)p(x4|x1)
p(x_3,x_4)=\sum_x_1{p(x_1,x_3,x_4)}=\sum_x_1{p(x_1)p(x_3|x_1)p(x_4|x_1)}
由于不知道p(x_3|x_1)p(x_4|x_1),所以无法得出p(x_3,x_4)=p(x_3)p(x_4)。
②.x已知时,p(x,y,z)=p(z)p(x|z)p(y|x)
p(y,z|x)=\frac{p(x,y,z)}{p(x)}=\frac{p(z)p(x|z)}{p(x)}p(y|x)=p(z|x)p(y|x)
所以y⊥z|x
x未知时,p(x,y,z)=p(z)p(x|z)p(y|x)
p(y,z)=\sum_x{p(x,y,z)}=p(z)\sum_x{p(x|z)p(y|x)}
无法得出p(y,z)=p(y)p(z)