【Python机器学习】朴素贝叶斯分类的讲解及预测决策实战(图文解释 附源码)

需要代码请点赞关注收藏后评论区留言私信~~~

朴素贝叶斯分类

朴素贝叶斯(naïve Bayes)分类是基于贝叶斯定理与特征条件独立假定的分类方法。

设试验E的样本空间为S,A为E的事件,B_1,B_2,⋯,B_n为S的一个划分,且P(A)>0,P(B_i)>0(i=1,2,…,n),则贝叶斯公式为:

【Python机器学习】朴素贝叶斯分类的讲解及预测决策实战(图文解释 附源码)_第1张图片

P(B_i)称为先验概率,即分类B_i发生的概率,它和条件概率P(A│B_i)可从样本集中估计得到。通过贝叶斯公式就可以找到使后验概率P(B_i│A)最大的B_i。即A事件发生时,最有可能的分类B_i。

设样本集为S={s_1,s_2,…,s_m},每个样本s_i=(x_i,y_i)包括一个实例x_i和一个标签y_i。标签y_i有k种取值{y_i^(1),y_i^(2),…,y_i^(k)}。

朴素贝叶斯法首先基于特征条件独立假定,从样本集中学习到先验概率和条件概率,然后基于它们,对给定的测试样本x,利用贝叶斯公式求出使后验概率最大的预测值y。y可看作x所属分类的编号。

特征条件独立假定,是指假定样本的各个特征是相互独立的,互不关联。这个假定显然是不符合实际的,但它可以在大数据量、大特征量的情况下极大简化计算,使得贝叶斯算法实际可行。从实际应用情况来看,朴素贝叶斯分类也取得了不错的效果。 

1:多项式朴素贝叶斯分类器

多项式朴素贝叶斯分类器假设条件概率P(A│B_i)服从多项式分布。多次抛硬币实验中,出现指定次数正面(或反面)的概率是二项分布。将二项分布中的两种状态推广到多种状态,就得到了多项式分布。

class sklearn.naive_bayes.MultinomialNB(*, alpha=1.0, fit_prior=True, class_prior=None)
fit(X, y, sample_weight=None)
predict(X)
predict_proba(X)

其中,alpha称为平滑值,它用来避免在估计条件概率时出现值为0的情况,它的取值大于0,当等于1时,称为Laplace平滑。

当假定特征取值符合0-1分布时,多项式分类器 退化为伯努利朴素贝叶斯分类器,即伯努利朴素分类器中,特征只能取两个值,它在某些场合下比多项式分类器效果更好一些,使用伯努利分类器之前,需要先将非二值的特征转化为二值的特征

部分代码如下  用来预测相亲问题 

# 训练样本集
blind_date_X = [ [35, 176, 0, 20000],
                 [28, 178, 1, 10000],
                 [26, 172, 0,],
                 [29, 173, 2, 20000],
                 [28, 174, 0, 15000] ]
blind_date_y = [ 0, 1, 0, 1, 1 ]
# 测试样本集
test_sample = [  [24, 178, 2, 170],
                 [27, 176, 0, 25000],
                 [27, 176, 0, 10000]  ]
 
# 多项式朴素贝叶斯分类器
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB()
clf.fit(blind_date_X, blind_date_y)
print(clf.predict(test_sample))

2:高斯朴素贝叶斯分类器

当特征值是连续变量的时候,可采用高斯朴素贝叶斯分类器。高斯朴素贝叶斯分类器假设条件概率P(A│B_i)服从参数未知的高斯分布。

代码如下

from sklearn.naive_bayes import GaussianNB
clf = GaussianNB()
clf.fit(blind_date_X, blind_date_y)
print(clf.predict(test_sample))
>>> [1 0 1]
print(clf.class_prior_) # 标签的先验概率
>>> [0.4 0.6]
print(clf.class_count_) # 每个标签的样本数量
>>> [2. 3.]
print(clf.theta_) # 高斯模型的期望值
>>> [[3.05000000e+01 1.74000000e+02 0.00000000e+00 2.25000000e+04]
     [2.83333333e+01 1.75000000e+02 1.00000000e+00 1.50000000e+04]]
print(clf.sigma_) # 高斯模型的方差
>>> [[2.02760000e+01 4.02600000e+00 2.60000000e-02 6.25000003e+06]
     [2.48222222e-01 4.69266667e+00 6.92666667e-01 1.66666667e+07]]

朴素贝叶斯法实现简单,学习与预测的效率都很高,甚至在某些特征相关性较高的情况下都有不错的表现,是一种常用的方法

创作不易 觉得有帮助请点赞关注收藏~~~

你可能感兴趣的:(机器学习,python,分类,朴素贝叶斯,sklearn)