朴素贝叶斯(Naive Bayes)算法笔记(二)-scikit learn

写在前面的话：哈喽，大家早安、午安、晚安喽，欢迎大家指点，也希望我的内容可以温暖、帮助同在学习路上的人们~

正文开始~~

上一篇朴素贝叶斯(Naive Bayes)算法笔记(一)-Python 用Python基本实现了朴素贝叶斯算法的分类，这一节将基于scikit learn中的朴素贝叶斯相关模型来实现算法。

Scikit learn中实现朴素贝叶斯的方法来源于sklearn.naive_bayes 模块。在这个模块下，因为P(x_i | y)的计算方法不同，存在三种实现模块：Gaussian Naive Bayes、Multinomial Naive Bayes、Bernoulli Naive Bayes 。接下来，将分别介绍这些模块的实现。

1、Bernoulli Naive Bayes介绍

此方法主要是针对数据符合多元伯努利分布的朴素贝叶斯分类算法。该模型最明显的一个特点是他非常关注每一个特征是否出现而不仅是出现的次数，针对那种在某个计算中不出现的特征值会有惩罚。Bernoulli Naive Bayes在计算每个特征的条件概率时，基于下面的公式：

公式1 BernoulliNB模型中特征值的条件概率

Bernoulli Naive Bayes模型的使用

朴素贝叶斯(Naive Bayes)算法笔记(二)-scikit learn_第1张图片

图2 BernoulliNB模型应用

朴素贝叶斯(Naive Bayes)算法笔记(二)-scikit learn_第2张图片

图3 左图为原始数据，有图为BernoulliNB模型处理后的数据

相关的函数见Bernoulli Naive Bayes

2、Gaussian Naive Bayes介绍

高斯朴素贝叶斯分类算法与上面的Bernoulli Naive Bayes主要区别在于求解属性特征值的计算式：

公式2 高斯模型中特征值的条件概率

接下来看一下高斯朴素贝叶斯模型应用。

新彩蛋：筒子们，快醒醒，针对分类问题，突然发现有一个概率校准(Probability calibration of classifiers)的事情。大多数的分类模型，得到的预测结果仅有定序意义，而不能够定量（比如很多只是知道最终属于哪一类，但是并不知道属于这一类的概率有多大，类似于概率中的置信区间）。很多情况下，仅仅得到一个好的AUC值是远远不够的，我们需要得到一个准确的概率值。这就要求，模型的输出结果从定序上升为定距。有两种方法可以实现由定序到定距：普拉托变换（Platt Scaling）和保序回归(Isotonic Regression).Platt Scaling的适用条件较为严格，他仅适用于被扭曲的预测结果是sigmoid的模型；Isotonic Regression的适用条件较为宽松，它只要预测结果是单调的。不幸的是，相比Platt Scaling， Isotonic Regression更容易过拟合，尤其是当训练数据集稀少的时候。关于Platt Scaling和Isotonic Regression，可以查看概率值校准

肿么样，筒子们，你们在利用分类算法预测概率时，是否想到这些问题了？scikit-learn替你想好啦，主要是sklearn.calibration这个类里面的方法，见sklearn.calibration.CalibratedClassifierCV

辣么，接下来就看一个包含的概率校准的高斯朴素贝叶斯分类实例

1）先通过make_blobs()产生同极性的高斯分布数据，然后分开训练集和测试集，同时，为了接下来的概率校准做准备，给样本赋予随机权重，得到带有样本权重的训练数据sw_train和测试数据sw_test，代码如下：

朴素贝叶斯(Naive Bayes)算法笔记(二)-scikit learn_第3张图片

图4 准备数据

2）接下来，利用高斯贝叶斯模型，分别考虑了没有概率校准、基于Isotonic的概率校准、基于Platt Scaling中主要的方法sigmoid方法得出的分类方法的错误率，见下图：

朴素贝叶斯(Naive Bayes)算法笔记(二)-scikit learn_第4张图片

图5 分别计算有无概率校准的高斯朴素贝叶斯分类的错误率

3)接下来将通过以上不同方法测出的y取值绘制出来:

朴素贝叶斯(Naive Bayes)算法笔记(二)-scikit learn_第5张图片

图6 绘图代码

朴素贝叶斯(Naive Bayes)算法笔记(二)-scikit learn_第6张图片

图7 原始数据和不同方法得到的样本概率

看了上面的错误率以及计算出的样本概率，俺觉得概率校准很有必要，元芳，你咋看？

内心突然有点小激动，辣么，这两种不同的概率校准方法(sigmoid和Isotonic方法)，哪个更好呢，该如何与这么多的分类器算法结合？贴心的sklearn同样给出了对比Probability Calibration curves、Comparison of Calibration of Classifiers，感兴趣可以直接点进去看哈，我仅给出一些结论性的东西哈：1）如果原始数据中，存在冗余特征，那么这些特征之间就不满足朴素贝叶斯‘特征独立’的特点，因此，直接使用高斯朴素贝叶斯方法时，算法的错误率很高，此时，进行概率校准就非常重要；2）那么不同的分类器算法，该用sigmoid和Isotonic方法哪个方法呢？此时应该看分类器算法的概率校准函数类型是更接近于哪个函数的特征。比如，线性支持向量机的概率校准曲线(calibration curve)接近于sigmoid函数，所以用基于sigmoid的概率校准就非常合适；而高斯朴素贝叶斯分类器的概率校准曲线更接近于sigmoid函数曲线的转置，因此，高斯朴素贝叶斯分类器在概率校准时不适合使用sigmoid，而适合用Isotonic函数。

好哒，基于高斯朴素贝叶斯分类算法的介绍先到这里，写了好多，也思考了很多，宝宝心里苦，但宝宝继续写

3、sklearn.naive_bayes.MultinomialNB 模型介绍

这个定义中包含了很多公式，我就不一个个打出来了，具体见下图：

朴素贝叶斯(Naive Bayes)算法笔记(二)-scikit learn_第7张图片

图8 MultinomialNB模型介绍

从定义来看，这个模型主要是用来做文本分析的，具体栗子见Out-of-core classification of text documents等等。

其实这个模型是对最初的朴素贝叶斯模型做了类似于拉普拉斯平滑。因为在比如文本分析中，很容易一些词完全不出现，为了避免出现0导致无穷等不能计算，加了一些参数因子。

好哒，今天这篇先到这里，朴素贝叶斯的内容和应用都很多，我以后深入学习的时候会与大家分享更加详细的内容和心得，希望今天的内容对大家有点帮助，也请大牛不吝赐教，能有一群一起学习、交流的人，是我的愿望，我们共同进步~~

下一篇一起学习Logistic回归啦~~

朴素贝叶斯(Naive Bayes)算法笔记(二)-scikit learn

你可能感兴趣的:(朴素贝叶斯(Naive Bayes)算法笔记(二)-scikit learn)