《西瓜书》第七章课后习题

7.1试使用极大似然法估算西瓜数据集3.0中前3个属性的类条件概率。

极大似然就是进行概率假设,然后对假设的概率分布参数进行估计

假设第一个属性色泽概率分布为:
P(色泽=青绿|好瓜)= ξ 1 \xi_1 ξ1
P(色泽=乌黑|好瓜)= ξ 2 \xi_2 ξ2
P(色泽=浅白|好瓜)= ξ 3 = 1 − ξ 1 − ξ 2 \xi_3=1-\xi_1-\xi_2 ξ3=1ξ1ξ2
似然函数:
L ( ξ ) = ∏ i P ( 色 泽 = x i ∣ 好 瓜 ) = ξ 1 3 ξ 2 4 ( 1 − ξ 1 − ξ 2 ) L(\xi)=\prod_i P(色泽=x_i|好瓜)=\xi_1^3\xi_2^4(1-\xi_1-\xi_2) L(ξ)=iP(=xi)=ξ13ξ24(1ξ1ξ2)
L ( ξ 1 ) ′ = ξ 1 2 ξ 2 4 ( 3 − 4 ξ 1 − 3 ξ 2 ) {L(\xi_1)}'=\xi_1^2\xi_2^4(3-4\xi_1-3\xi_2) L(ξ1)=ξ12ξ24(34ξ13ξ2)
L ( ξ 2 ) ′ = ξ 1 3 ξ 2 3 ( 4 − 4 ξ 1 − 5 ξ 2 ) {L(\xi_2)}'=\xi_1^3\xi_2^3(4-4\xi_1-5\xi_2) L(ξ2)=ξ13ξ23(44ξ15ξ2)
L ( ξ 1 ) ′ = L ( ξ 2 ) ′ = 0 {L(\xi_1)}'={L(\xi_2)}'=0 L(ξ1)=L(ξ2)=0
ξ 1 = 3 8 \xi_1=\frac{3}{8} ξ1=83
ξ 2 = 1 2 \xi_2=\frac{1}{2} ξ2=21
ξ 3 = 1 8 \xi_3=\frac{1}{8} ξ3=81
结果与直观观察一致。

7.2 试证明:条件独立性假设不成立时,朴素贝叶斯分类器仍有可能产生最优贝叶斯分类器。
条件不独立的那些属性都一致,或者放松一些,同一类的样本的条件不独立的属性一致时,朴素贝叶斯分类器依旧可以是最优贝叶斯分类器。

7.3 试编程实现拉普拉斯修正的朴素贝叶斯分类器,并以西瓜数据集3.0为训练集,对p.151“测1”样本进行判别。
西瓜数据集3.0: github文件地址
详细代码:github代码地址

7.4 实践中使用式(7.5)决定分类类别时,若数据的维数非常高,则概率连乘的结果通常会非常接近于0从而导致下溢。试述防止下溢的可能方案。
加log(),变连乘为连加。防止数据过大造成连加后无穷大,可以除属性个数值。

7.5试证明:二分类任务中两类数据满足高斯分布且方差相同时,线性判别分析产生贝叶斯最有分类器。

这道题关于线性判别公式如何得出的地方还没有想太明白,但其实从概念上线性判别就是样本离自己分类较近,两个分类之间较远就是最安全的,这和概率判别思想是一致的,都是增加安全裕量。

对于线性分类器得判别公式 J = ∣ w T ( u 1 − u 2 ) ∣ 2 w T ( ∑ 1 + ∑ 2 ) w J=\frac{|w^T(u1−u2)|^2}{w^T(∑_1+∑_2)w} J=wT(1+2)wwT(u1u2)2 求最大值也就是求
1 J = w T ( ∑ 1 + ∑ 2 ) w ∣ w T ( u 1 − u 2 ) ∣ 2 = ∑ i ( 1 − y i ) ∣ w T ( x i − u 1 ) ∣ 2 + y i ∣ w T ( x i − u 2 ) ∣ 2 ∣ w T ( u 1 − u 2 ) ∣ 2 \frac{1}{J}=\frac{w^T(\sum_1+\sum_2)w}{|w^T(u_1-u_2)|^2}=\sum_i\frac{(1-y_i)|w^T(x_i-u_1)|^2+y_i|w^T(x_i-u_2)|^2}{|w^T(u_1-u_2)|^2} J1=wT(u1u2)2wT(1+2)w=iwT(u1u2)2(1yi)wT(xiu1)2+yiwT(xiu2)2最小。
再回到贝叶斯分类器这边,最优贝叶斯分类器也就是使每个样本的后验概率最大(条件风险最小)的分类器,对应线性判别,条件风险越小也就是样本离其所对应的分类中心的距离尽可能小同时分类中心之间的距离尽可能大,也就是 ∑ i ( 1 − y i ) ∣ w T ( x i − u 1 ) ∣ 2 + y i ∣ w T ( x i − u 2 ) ∣ 2 ∣ w T ( u 1 − u 2 ) ∣ 2 \sum_i\frac{(1-y_i)|w^T(x_i-u_1)|^2+y_i|w^T(x_i-u_2)|^2}{|w^T(u_1-u_2)|^2} iwT(u1u2)2(1yi)wT(xiu1)2+yiwT(xiu2)2最小。两式相同。

7.6
待补充。
 
7.7 给定 d 个二值属性的二分类任务,假设对于任何先验概率项的估算至少需要30个样例,则在朴素贝叶斯分类器式(7.15)中估算先验概率项需要60个样例。试估计在AOED式中估算先验概率项所需的样例数。(分别考虑最好和最坏情况)
最好情况:  
每一类的每个属性都一致,则需要 30 × 2 = 60 30×2=60 30×2=60个样例  
最坏情况:
需要 30 × 2 × d = 60 d 30×2×d=60d 30×2×d=60d个样例

7.8 考虑图7.3,证明:在同父结构中,若 x 1 x_1 x1的取值未知,则 x 3 x_3 x3 x 4 x_4 x4不成立。在顺序结构中, y ⊥ z ∣ x y⊥z|x yzx成立,但 y ⊥ z y⊥z yz不成立。
①. x 1 x_1 x1已知时, p ( x 1 , x 3 , x 4 ) = p ( x 1 ) p ( x 3 ∣ x 1 ) p ( x 4 ∣ x 1 ) p(x_1,x_3,x_4)=p(x_1)p(x_3|x_1)p(x_4|x_1) p(x1,x3,x4)=p(x1)p(x3x1)p(x4x1)
p ( x 3 , x 4 ∣ x 1 ) = p ( x 1 , x 3 , x 4 ) p ( x 1 ) = p ( x 3 ∣ x 1 ) p ( x 4 ∣ x 1 ) p(x_3,x_4|x_1)=\frac{p(x_1,x_3,x_4)}{p(x_1)}=p(x_3|x_1)p(x_4|x_1) p(x3,x4x1)=p(x1)p(x1,x3,x4)=p(x3x1)p(x4x1)
所以 x 3 ⊥ x 4 ∣ x 1 x_3⊥x_4|x_1 x3x4x1
x 1 x_1 x1未知时, p ( x 1 , x 3 , x 4 ) = p ( x 1 ) p ( x 3 ∣ x 1 ) p ( x 4 ∣ x 1 ) p(x_1,x_3,x_4)=p(x_1)p(x_3|x_1)p(x_4|x_1) p(x1,x3,x4)=p(x1)p(x3x1)p(x4x1)
p ( x 3 , x 4 ) = ∑ x 1 p ( x 1 , x 3 , x 4 ) = ∑ x 1 p ( x 1 ) p ( x 3 ∣ x 1 ) p ( x 4 ∣ x 1 ) p(x_3,x_4)=\sum_{x_1}{p(x_1,x_3,x_4)}=\sum_{x_1}{p(x_1)p(x_3|x_1)p(x_4|x_1)} p(x3,x4)=x1p(x1,x3,x4)=x1p(x1)p(x3x1)p(x4x1)
由于不知道 p ( x 3 ∣ x 1 ) p ( x 4 ∣ x 1 ) p(x_3|x_1)p(x_4|x_1) p(x3x1)p(x4x1),所以无法得出 p ( x 3 , x 4 ) = p ( x 3 ) p ( x 4 ) p(x_3,x_4)=p(x_3)p(x_4) p(x3,x4)=p(x3)p(x4)

②. x x x 已知时, p ( x , y , z ) = p ( z ) p ( x ∣ z ) p ( y ∣ x ) p(x,y,z)=p(z)p(x|z)p(y|x) p(x,y,z)=p(z)p(xz)p(yx)
p ( y , z ∣ x ) = p ( x , y , z ) p ( x ) = p ( z ) p ( x ∣ z ) p ( x ) p ( y ∣ x ) = p ( z ∣ x ) p ( y ∣ x ) p(y,z|x)=\frac{p(x,y,z)}{p(x)}=\frac{p(z)p(x|z)}{p(x)}p(y|x)=p(z|x)p(y|x) p(y,zx)=p(x)p(x,y,z)=p(x)p(z)p(xz)p(yx)=p(zx)p(yx)
所以 y ⊥ z ∣ x y⊥z|x yzx
x x x未知时, p ( x , y , z ) = p ( z ) p ( x ∣ z ) p ( y ∣ x ) p(x,y,z)=p(z)p(x|z)p(y|x) p(x,y,z)=p(z)p(xz)p(yx)
p ( y , z ) = ∑ x p ( x , y , z ) = p ( z ) ∑ x p ( x ∣ z ) p ( y ∣ x ) p(y,z)=\sum_x{p(x,y,z)}=p(z)\sum_x{p(x|z)p(y|x)} p(y,z)=xp(x,y,z)=p(z)xp(xz)p(yx)
无法得出 p ( y , z ) = p ( y ) p ( z ) p(y,z)=p(y)p(z) p(y,z)=p(y)p(z)

7.9 7.10
略。

你可能感兴趣的:(机器学习)