朴素贝叶斯

1 概述

        朴素贝叶斯(naïve Bayes)法是基于贝叶斯定理特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。朴素贝叶斯法实现简单,学习与预测的效率都很高,是一种常用的方法。

2 基本方法

        (1)条件独立性假设
                        
这是一个较强的假设,朴素贝叶斯法也由此得名。朴素贝叶斯法实际上学习到生成数据的机制,所以属于生成模型。条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的。这一假设使朴素贝叶斯法变得简单,但有时会牺牲一定的分类准确率。

        (2)贝叶斯定理
                        

         两者结合就是朴素贝叶斯分类的基本公式:
                        

        (3)于是,朴素贝叶斯分类器可表示为:
                           

        因为上式中,分母是用于归一化的证据分子。对于给定样本x,证据因子p(x)与类标记无关,所以分母对所有的是相同的,因此

                                                

        显然,朴素贝叶斯分类器的训练过程就是基于训练集来估计类先验概率,并为每个属性估计条件概率。

3 后验概率最大化的含义

        贝叶斯判定准则 :为最小化总体风险,只需在每个样本上选择那个能使条件风险最小的类别标记。

        朴素贝叶斯法将实例分到后验概率最大的类中。这等价于期望风险最小化。假设选择 0-1损失函数:

式中是分类决策函数。这时,期望风险函数为 
                                                                                
期望是对联合分布取的。由此取条件期望
                                                                       

为了使期望风险最小化,只需对X=x逐个极小化,由此得到:
                                            
                                                       
                                                       
                                                       

4 参数估计

4.1 极大似然估计

        在朴素贝叶斯法中,学习意味着估计和。可以应用极大似然估计法估计相应的概率。先验概率的极大似然估计是

                                            

设第j个特征可能的取值的集合为{,},条件概率的极大似然估计是
                                             

                                                |
其中,I为指示函数,即


算法4.1(朴素贝叶斯算法(naïve Bayes algorithm))
输入:训练数据,其中 , 是第i个样本的第j个特征,,是第j个特征可能取的第l个值,;实例x;
 输出:实例x的分类。
(1)计算先验概率及条件概率
                                    

(2)对于给定的实例x=(x(1),x(2),…,x(n))T,计算
                                  

(3)确定实例x的类
                                 

4.2 贝叶斯估计

        用极大似然估计可能会出现所要估计的概率值为0的情况。这时会影响到后验概率的计算结果,使分类产生偏差。为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”,解决这一问题的方法是采用贝叶斯估计。具体地,条件概率的贝叶斯估计是
                                            

 式中 。等价于在随机变量各个取值的频数上赋予一个正数 >0。当 =0时就是极大似然估计。常取 =1,这时称为拉普拉斯平滑(Laplace smoothing)。
        同样,先验概率的贝叶斯估计是        

总结

优点:
(1) 算法逻辑简单,易于实现
(2)稳定的分类效率。
(3)NBC模型所需估计的参数很少,对缺失数据不太敏感
(4) 贝叶斯方法的特点是结合先验概率和后验概率,即避免了只使用先验概率的主观偏见,也避免了单独使用样本信息的过拟合现象。
(5)贝叶斯分类算法在数据集较大的情况下表现出较高的准确率,同时算法本身也比较简单。
(6)当数据集属性之间的关系相对比较独立时,朴素贝叶斯分类算法会有较好的效果

缺点:
理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。

你可能感兴趣的:(朴素贝叶斯)