机器学习之朴素贝叶斯分类

文章目录

  • 朴素贝叶斯
    • 例题
    • 核心代码实现
  • 参考

朴素贝叶斯

机器学习之朴素贝叶斯分类_第1张图片
基于朴素贝叶斯公式来估计后验概率P(c | x)的主要困难在于类条件概率P(x | c)是所有属性上的联合概率,难以从有限的训练样本直接估计而得。因此,朴素贝叶斯就是拥有一个朴素的条件:“属性条件独立性假设”:对于已知类别,假设所有属性相互独立,也就是说假设每个属性独立地对分类结果发生影响。
因此可以重写为:
机器学习之朴素贝叶斯分类_第2张图片
其中d为属性数目,xix在第i个属性上地取值。

由于对所有类别来说P(x)相同,因此基于上式朴素贝叶斯分类器可以写成:

机器学习之朴素贝叶斯分类_第3张图片

其实也是很好理解的,就比如一组训练数据,我们先计算出好瓜并且色泽青绿的概率、好瓜并且根蒂蜷缩的概率、坏瓜并且色泽青绿的概率…根据已有的数据,我们能够得到一组概率值,那么基于此,我们其实就已经得到了朴素贝叶斯分类器了,因为当我们得到一组新的测试数据的时候,我们只需要看数据色泽、根蒂等特征是符合好瓜里的概率大还是坏瓜里的概率大就能够做出判断了。

计算的具体方式如下:
机器学习之朴素贝叶斯分类_第4张图片

例题

举个例子:
机器学习之朴素贝叶斯分类_第5张图片

机器学习之朴素贝叶斯分类_第6张图片
首先估计类先验概率P©:
机器学习之朴素贝叶斯分类_第7张图片
然后为每个属性估计条件概率P(xi| c):

机器学习之朴素贝叶斯分类_第8张图片

机器学习之朴素贝叶斯分类_第9张图片
机器学习之朴素贝叶斯分类_第10张图片

看到这里可以回味一下,朴素贝叶斯其实思路很简单,就是类别中哪些特征出现的概率大,那么当测试数据属于这些特征时,计算出是这类的概率就会大了,就达到分类的效果了。

但是在这里单纯这样计算会存在一个bug,比如一个瓜很多条件都符合好瓜的特征,但是其中有一个特征因为训练集太小而并没有在好瓜中出现,那么其无论多像好瓜,都会被认为好瓜的概率为0,因为0乘任何数都为0

机器学习之朴素贝叶斯分类_第11张图片

为此,我们可以采用拉普拉斯修正:
机器学习之朴素贝叶斯分类_第12张图片
强调一下,Ni为表示第i个属性的取值数

那么上例可以进行如下修正:

机器学习之朴素贝叶斯分类_第13张图片
机器学习之朴素贝叶斯分类_第14张图片

核心代码实现

使用的西瓜数据集3.0
首先根据训练集计算出各类标签的各种特征的先验概率存储到一个概率字典中,然后就能够根据输入的数据得到类别概率从而获得最终的分类结果。
首先定义一个朴素贝叶斯类
定义我们需要的变量
机器学习之朴素贝叶斯分类_第15张图片
初始化概率字典:
机器学习之朴素贝叶斯分类_第16张图片

初始化后即可进行训练,训练方法定义如下:
机器学习之朴素贝叶斯分类_第17张图片
首先需要计算在相同标签下进行不同特征的先验概率的字典并保存下来。
上面主要是计算离散特征的。
机器学习之朴素贝叶斯分类_第18张图片
接下来就是计算连续型特征。
在这里插入图片描述
定义概率密度函数,为评估分类做准备。
机器学习之朴素贝叶斯分类_第19张图片
用于评估模型,如果有标签,那么就输出对应的准确率
机器学习之朴素贝叶斯分类_第20张图片
main函数入口,以及运行结果展示。
其中测试的样例就是上面提到的例题里的测试样例,分类器判别为好瓜,和例题答案一致。

我们可以接着看一下构建的概率字典:
机器学习之朴素贝叶斯分类_第21张图片
可以看到其中的结果是经过拉普拉斯平滑过后的结果,与例题中的同样对应。

数据集+可运行代码:
机器学习之朴素贝叶斯分类+拉普拉斯平滑

参考

机器学习——周志华

你可能感兴趣的:(机器学习,分类,python)