机器学习 -- 朴素贝叶斯(Ⅲ 朴素贝叶斯)

一.什么是朴素贝叶斯

朴素贝叶斯:各特征相互独立,直接计算条件概率进行分类。是最简单的一种贝叶斯分类算法。

【注】各特征独立的条件在实际应用中通常难以满足,此时需要用贝叶斯网络进行分类。

 

二.朴素贝叶斯原理及其优缺点:

朴素贝叶斯基于概率论进行分类,朴素的含义是:各样本之间相互独立。

(1)优点:在数据较少的情况下仍然有效,可以处理多类别问题。

(2)缺点:对于输入数据的准备方式较为敏感。

适用数据类型:标称型数据。

 

三.朴素贝叶斯的一般过程

(1) 收集数据:可以使用任何方法。本章使用RSS源。
(2) 准备数据:需要数值型或者布尔型数据。
(3) 分析数据:有大量特征时,绘制特征作用不大,此时使用直方图效果更好。
(4) 训练算法:计算不同的独立特征的条件概率。
(5) 测试算法:计算错误率。
(6) 使用算法:一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴
素贝叶斯分类器,不一定非要是文本。

 

四.朴素贝叶斯的三种实现


(1)基于伯努利模型实现,即先验为伯努利分布的朴素贝叶斯。

对应模型:词集模型。

伯努利模型中,对于一个样本来说,其特征用的是全局的特征。在此模型中,每个特征的取值是布尔型的。在文本分类中,就是一个特征有没有在一个文档中出现,而不考虑其出现的次数。在文本里面对应的就是词集模型:单词构成的集合,集合自然每个元素都只有一个,也就是词集中的每个单词都只有一个。

(2)基于多项式模型实现,即先验为多项式分布的朴素贝叶斯。

对应模型:词袋模型。

该模型常用于文本分类,特征是单词,取值是单词出现次数,对应的是词袋模型:若一个单词在文档中出现不止一次,则统计其出现的次数。在这种模型中,文本被看作是无序的词汇集合,忽略语法甚至是单词的次序。

(3)基于高斯模型实现,即先验为高斯分布的朴素贝叶斯。

当特征是连续变量的时候,运用多项式模型就会导致很多条件概率为0,此时即使平滑处理,所得到的条件概率也难以满足真实情况,存在较大偏差。在处理连续的特征变量,应采用高斯模型。

【附】连续变量高斯离散化过程:利用样本的特征列计算出均值和方差,然后构造概率密度函数,将每个具体样本值代入到概率密度函数中,得到概率值,该概率值能反映各个值的相对可能性。

你可能感兴趣的:(机器学习)