机器学习(西瓜书)第七章笔记

极大似然估计这种参数估计方法虽能使类条件概率估计变得相对简单,但是结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布。

Laplacian correction避免了因训练集样本不充分而导致概率估值为零的问题,并且在训练集变大时,修正过程所引入的先验的影响也会逐渐变得可忽略,使得估值渐渐趋向于实际概率值。

 

贝叶斯分类中后验概率P(c|x)的求解确实很困难,于是提出了半朴素贝叶斯分类器。

基本想法:适当考虑一部分属性间的相互依赖信息,从而既不需要进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。

习题答案

1.试使用极大似然法估算西瓜数据集3.0中前3个属性的类条件概率。

 

极大似然法要先假定一种概率分布形式。

色泽:

对于好瓜,假设

P(色泽=青绿|好瓜)=σ1σ1

P(色泽=乌黑|好瓜)=σ2σ2

P(色泽=浅白|好瓜)=σ3σ3=1−σ1−σ21−σ1−σ2

L(σ)=⋂iP(色泽=xi|好瓜)=σ31σ42(1−σ1−σ2)L(σ)=⋂iP(色泽=xi|好瓜)=σ13σ24(1−σ1−σ2)

L′(σ1)=σ42σ21(3−4σ1−3σ2)L′(σ1)=σ24σ12(3−4σ1−3σ2)

L′(σ2)=σ31σ32(4−4σ1−5σ2)L′(σ2)=σ13σ23(4−4σ1−5σ2)

令L′(σ1)=0,L′(σ2)=0′(σ1)=0,L′(σ2)=0得σ1=38σ1=38,σ1=12σ1=12,σ3=18σ3=18

可以看出σ1,σ2,σ3σ1,σ2,σ3分别对应他们在样本中出现的频率。

对于坏瓜以及另外两种属性计算方式相同,得出类似的结果。

4.实践中用式(7.15)决定分类类别时,若数据的维度非常高,则连乘的概率结果会非常接近0并导致下溢。试述防止下溢的可能方案。

若连乘的式子太多,导致乘积接近0。由于属性个数是已知的,可以对每个乘式做适当次的开方处理,可以保证结果不会为0。另外也可以对各项取对数,当累加太多时,可能导致和接近负无穷。可以对每个加数除以属性的个数,来防止溢出。

7.给定d个二值属性的分类任务,假设对于任何先验概率的估算需要30个样本。试估计AODE中估算先验概率p(c,xi)p(c,xi)所需要的样本数。

显然对于正负样本,各属性对应的取值xixi需要出现30次。

最好的情况下,只需要60个样本就能就能估算概率。其中30个xixi属性的样本取值为1,30个xixi属性的样本取值为0。尽管这不符合实际情况(相同属性取值不同)。

最坏的情况下,要60d个样本才能估算。其中每个样本只有一个属性和测试样本xixi相同,其余都是另一个取值。

 

你可能感兴趣的:(机器学习)