贝叶斯分类器（3）朴素贝叶斯分类器

根据贝叶斯分类器（1）贝叶斯决策论概述、贝叶斯和频率、概率和似然，我们对贝叶斯分类器所要解决的问题、问题的求解方法做了概述，将贝叶斯分类问题转化成了求解的问题，在上一篇贝叶斯分类器（2）极大似然估计、MLE与MAP
中，我们分析了第一个求解方法：极大似然估计。在本篇中，我们来介绍一个更加简单的求解方法，并在此基础上讲讲常用的一个贝叶斯分类器的实现：朴素贝叶斯分类器（Naive Bayes classifier）。

1 朴素贝叶斯分类原理

1.1 分类问题回顾

我们的目标是通过对样本的学习来得到一个分类器，以此来对未知数据进行分类，即求后验概率。在贝叶斯分类器（1）贝叶斯决策论概述、贝叶斯和频率、概率和似然中，我们描述了贝叶斯分类器是以生成式模型的思路来处理这个问题的，如下面的公式所示，贝叶斯分类器通过求得联合概率来计算，并将联合概率转化成了计算类先验概率、类条件概率、证据因子。

其中的难点是类条件概率的计算，因为样本本身就是其所有属性的联合概率，各种属性随意组合，变幻莫测，要计算其中某一种组合出现的概率真的是太难了，而朴素贝叶斯的出现就是为了解决这个问题的。

要想计算联合概率，我们肯定是希望事件与事件是相互独立的，可以简单粗暴的，多想对着流星许下心愿：让世界上复杂的联合概率都变成简单的连乘！

1.2 朴素贝叶斯

朴素贝叶斯实现了我们的梦想！朴素贝叶斯中的朴素就是对多属性的联合分布做了一个大胆的假设，即的个维度之间相互独立：

朴素贝叶斯通过这一假设大大简化了的计算，当然，使用这个假设是有代价的，一般情况下，大量样本的特征之间独立这个条件是弱成立的，毕竟哲学上说联系是普遍的，所以我们使用朴素贝叶斯会降低一些准确性；如果实际问题中的事件的各个属性非常不独立的话，甚至是无法使用朴素贝叶斯的。总的来说，朴素贝叶斯大大简化了计算，同时牺牲了一些结果的准确性，具体要不要使用、怎么使用就看我们在实际问题中的权衡了。

在朴素贝叶斯的思想下再看回分类问题，事件有个属性，可将分类问题按下式转化：

只需要计算出上式不同类别下的值，令值最大的类别即为分类结果。

其中，根据大数定律，，是类别下的后验概率，其计算要取决于先验，这里需要分为是离散或连续两种情况：

1.2.1 特征/属性是离散型随机变量

1）先验服从多项式分布：假设的特征取值服从多项式分布，那么同样根据大数定律，可通过频率来计算：

为样本中类别为的频数，为类别为的样本中，第个属性中出现的频数。
不过有些出现的概率比较低的属性，在我们的样本中不一定会出现，即频数为0，如果不作处理的话会导致其为0，会导致包含这个属性的样本永远都不会被分类到类别，而现实不一定是这样，因此我们需要对没出现的情况做平滑处理，比如常见的拉普拉斯平滑，给分子的频数加上一个定值，而分母加上，表示为第个属性中的每一种取值的频数都加定值：

举例：垃圾邮件判断
朴素贝叶斯分类在垃圾邮件的判断上有不错的实践效果，这是一个二分类问题，，假设为垃圾邮件，为正常邮件，统计出：

现在收到一封邮件包含一些关键词：【中奖，笔记本电脑，特朗普，大选，...】，根据大量的数据可以统计出这些词出现的频数，除以类别中所有词的总频数得到其出现的后验概率，在垃圾邮件中：

在正常邮件中：

可以计算得到：

时的值是时值的26倍，所以判断此邮件是垃圾邮件。

我们判断西瓜好坏的问题也可以转化成离散型随机变量的分类问题，过程与上面类似。

2）先验服从伯努利分布：在的属性是离散型随机变量的分类问题中，如果一个属性只关注其出现或者不出现，而不关注其在一个样本内出现的次数，也就是其取值只有0和1，那么我们可以假设这个属性是服从伯努利分布的（注意：不要求属性为伯努利分布，只要业务需要，我们可以把它变成伯努利分布，比如对于销量，我们让小于100的都是0，大于100的为1）。其后验概率的计算为：

比如垃圾邮件的例子，在多项式朴素贝叶斯中：

如果我们只关心“中奖”出现与否，不管词频，则在伯努利朴素贝叶斯中：

1.2.2 特征/属性是连续型随机变量

连续变量离散化，使用多项式分布或伯努利分布：当的属性是连续型随机变量时，如果我们对取值的业务理解较好，一些情况下可以选择将连续变量离散化，比如在一个商品的分类中，我们根据业务理解把低于100块的映射到“便宜”，100到200块的映射到“一般”，高于100块的映射到“好贵”，这样就可以转化为离散变量的问题，这是比较简单的处理方式，不过对业务理解的要求比较高，而且要求样本的量不能太少，要保证每个区间有一定的样本量。
假设的连续型属性服从某种分布，比如正态分布： 假设服从正态分布，其中参数通过类别为的所有样本中属性的各种取值的平均得到，参数同理，通过样本的标准差得到，以此概率密度函数来计算。

举例：性别判断
下面是一组人类身体特征的统计资料。

有人身高6英尺、体重130磅，脚掌8英寸，判断此人性别：

各属性为连续变量，假设男性和女性的身高、体重、脚掌都是正态分布，通过样本计算出均值和方差。男性的身高是均值5.855、方差0.035的正态分布。所以，例如男性的身高为6英尺的概率的相对值等于1.5789（密度函数的值，并不是概率，只用来反映各个值的相对可能性）。

分布确定后，就可以计算性别的分类了：

女性的概率比男性要高出将近10000倍，所以判断该人为女性。

1.3 朴素贝叶斯分类的平滑方法

在前文1.2.1小节中我们已经提过平滑处理，主要针对于那些在样本中没有出现过的词，它们的概率是0，导致在分类中完全没有存在感，所以要对这些进行平滑处理。

平滑处理的方法也有很多种，包括我们上面说过的拉普拉斯平滑，除此之外还有古德图灵平滑，线性插值法，回退法（K-Z回退）等，不过这些方法在自然语言处理中比较常用，我们暂时先不多介绍了，还是聚焦在朴素贝叶斯上，下面我们看看朴素贝叶斯在sklearn中的实现。

2 朴素贝叶斯的sklearn实现

sklearn中有3种常用的不同类型的朴素贝叶斯：

高斯分布型 (Gaussian NB)：用于上面所说的连续型变量的分类问题，假定属性/特征服从正态分布；
多项式型 (Multinomial NB)：用于离散值模型里。比如我们在1.2.1中的例子；
伯努利型 (Bernoulli NB)：用于离散值模型里，最后得到的特征只有0(没出现)和1(出现过)。

1）高斯分布型朴素贝叶斯

sklearn.naive_bayes.GaussianNB(*, priors=None, var_smoothing=1e-09)

Parameters
priors：array-like of shape (n_classes,)
类别的先验概率，如果指定，则不再根据数据计算调整
var_smoothing：float, default=1e-9
Portion of the largest variance of all features that is added to variances for calculation stability.（不是很明白）

Gaussian NB的方法

>> import numpy as np
>> X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
>> Y = np.array([1, 1, 1, 2, 2, 2])
>> from sklearn.naive_bayes import GaussianNB
>> clf = GaussianNB()
>> clf.fit(X, Y)
GaussianNB()
>> print(clf.predict([[-0.8, -1]]))
[1]
>> clf_pf = GaussianNB()
>> clf_pf.partial_fit(X, Y, np.unique(Y))  # 增量训练
GaussianNB()
>> print(clf_pf.predict([[-0.8, -1]]))
[1]
>> clf.predict_proba(np.array([[2,2]]))   # 输出概率
array([[2.31952419e-16, 1.00000000e+00]])
>> clf.predict_log_proba(np.array([[2,2]]))    # 输出对数概率
array([[-35.99999941,   0.        ]])

2）多项式分布型朴素贝叶斯

sklearn.naive_bayes.MultinomialNB(*, alpha=1.0, fit_prior=True, class_prior=None)

Parameters
alpha：float, default=1.0
Additive (Laplace/Lidstone) smoothing parameter (0 for no smoothing).

fit_prior：bool, default=True
Whether to learn class prior probabilities or not. If false, a uniform prior will be used.

class_prior：array-like of shape (n_classes,), default=None
Prior probabilities of the classes. If specified the priors are not adjusted according to the data.

其常用函数与高斯型一样。

>> import numpy as np
>> rng = np.random.RandomState(1)
>> X = rng.randint(5, size=(6, 100))
>> y = np.array([1, 2, 3, 4, 5, 6])
>> from sklearn.naive_bayes import MultinomialNB
>> clf = MultinomialNB()
>> clf.fit(X, y)
MultinomialNB()
>> print(clf.predict(X[2:3]))
[3]

3）伯努利分布型朴素贝叶斯

sklearn.naive_bayes.BernoulliNB(*, alpha=1.0, binarize=0.0, fit_prior=True, class_prior=None)

Parameters
binarize：float or None, default=0.0
Threshold for binarizing (mapping to booleans) of sample features. If None, input is presumed to already consist of binary vectors.（用于设置二值化的阈值）

官方例子与多项式型的基本一样，而且也没有设置binarize，相当于默认使用binarize=0.0，根据源码 sklearn/preprocessing/_data.py
中的binarize(X, *, threshold=0.0, copy=True)函数可以发现，大于binarize的都赋值为1，其他为0。

>> import numpy as np
>> rng = np.random.RandomState(1)
>> X = rng.randint(5, size=(6, 100))
>> Y = np.array([1, 2, 3, 4, 4, 5])
>> from sklearn.naive_bayes import BernoulliNB
>> clf = BernoulliNB()
>> clf.fit(X, Y)   # X中各个特征的取值为[0,1,2,3,4]，二值化后大于0的都为1
BernoulliNB()
>> print(clf.predict(X[2:3]))
[3]

3 朴素贝叶斯总结

优点

朴素贝叶斯算法假设了数据集属性之间是相互独立的，因此算法的逻辑性十分简单，并且算法较为稳定，当数据呈现不同的特点时，朴素贝叶斯的分类性能不会有太大的差异；
当数据集属性之间的关系相对比较独立时，朴素贝叶斯分类算法会有较好的效果；
数据量要求不大，适合增量式训练，能直接处理多分类；
算法简单直观，具有很好的可解释性，可以直接输出概率。

缺点

属性独立性的条件也是朴素贝叶斯的不足之处，数据集属性的独立性在很多情况下很难满足；
需要知道先验概率，且先验概率很多时候也是取决于假设，故对假设的合理性较为依赖。

可见，朴素贝叶斯的缺点很大程度来来源于其假设太强，对于其假设符合程度较低的问题会损失较多的准确性，因此，如果我们能把假设弱化一下，是不是就能提高朴素贝叶斯的性能呢？在接下来的篇章中我们来继续探索。

主要参考资料

《机器学习》周志华
《统计学习方法》李航
scikit-learn Naive Bayes文档