统计学习方法-李航 第四章 朴素贝叶斯法

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。训练的时候,学习输入输出的联合概率分布;分类的时候,利用贝叶斯定理计算后验概率最大的输出。

朴素贝叶斯法的学习与分类

统计学习方法-李航 第四章 朴素贝叶斯法_第1张图片
而条件概率分布条件概率分布
在这里插入图片描述
参数数量是指数级的,也就是X和Y的组合很多,假设xj可能取值Sj个,Y可能取值有K个,那么参数的个数是参数个数
.png
特别地,取xj=S,那么参数个数为KSn,当维数n很大的时候,就会发生维数灾难。

维数灾难

一维空间中,把一个单位空间(退化为区间)以每个点距离不超过0.01采样,需要102个平均分布的采样点,而在10维度空间中,需要1020个点才行。这种指数级的复杂度增长被称为维数灾难。

为了计算它,朴素贝叶斯法对它做了条件独立性的假设:

条件独立性假设.png

也就是各个维度的特征在类确定的情况下都是独立分布的。这一假设简化了计算,也牺牲了一定的分类准确率。

统计学习方法-李航 第四章 朴素贝叶斯法_第2张图片

朴素贝叶斯法的参数估计

极大似然估计

前面说过,朴素贝叶斯法要学习的东西就是P(Y=ck)和P(X=x|Y=ck),这两个概率的估计用极大似然估计法(简单讲,就是用样本猜测模型参数,或者说使得似然函数最大的参数)进行:
先验概率估计.png
也就是用样本中ck的出现次数除以样本容量。
统计学习方法-李航 第四章 朴素贝叶斯法_第3张图片
分子是样本中变量组合的出现次数,分母是上面说过的样本中ck的出现次数。

学习与分类算法

统计学习方法-李航 第四章 朴素贝叶斯法_第4张图片
例题:
统计学习方法-李航 第四章 朴素贝叶斯法_第5张图片
统计学习方法-李航 第四章 朴素贝叶斯法_第6张图片
统计学习方法-李航 第四章 朴素贝叶斯法_第7张图片

贝叶斯估计

最大似然估计有个隐患,假设训练数据中没有出现某种参数和类别的组合怎么办?此时估计的概率值为0,但是这不代表真实数据中就没有这样的组合。解决办法是采用贝叶斯估计,条件概率的贝叶斯估计:
统计学习方法-李航 第四章 朴素贝叶斯法_第8张图片
其中平滑因子λ≥0,Sj表示xj可能取值的种数。分子和分母分别比最大似然估计多了一点东西,其意义是在随机变量每个取值的频数上加一个常量平滑因子λ≥0。当此常量取0时,就是最大似然估计,当此常量取1时,称为拉普拉斯平滑
2、先验概率的贝叶斯估计:

在这里插入图片描述
K为先验概率个数。
统计学习方法-李航 第四章 朴素贝叶斯法_第9张图片

参考:http://www.hankcs.com/ml/naive-bayesian-method.html

你可能感兴趣的:(统计学习方法)