朴素贝叶斯分类器本质上是线性分类器

原文地址:http://blog.163.com/rustle_go_go/blog/static/20294501420122110431306/

     在准备组会报告的时候,无意中发现了“朴素贝叶斯分类器本质上是线性分类器”的说法。整理了相关的资料,对这个说法有了更深的了解,写了这篇博文。欢迎各路大牛拍砖。
     一开始介绍朴素贝叶斯分类器和线性分类器的定义,然后介绍两种是线性分类器的朴素贝叶斯分类器。这里需要指出的是,只有在特定条件下,朴素贝叶斯分类器才是线性分类器。最后给出一种不是线性分类器的朴素贝叶斯分类器。
     由于二分类问题在分类问题中的基础地位,本文将以二分类问题为例。本文中出现的分类器没有特别说明,都认为是二元分类器。

朴素贝叶斯分类器和线性分类器
    朴素贝叶斯分类器是建立在属性变量相互独立的基础上,以后验概率为判定准则的分类器。不等式1成立,判别输入向量 x=(x1,x2,x3,...,xn)为正类,不然判别为负类。
              
 
    线性分类器则是直观地来说,是在高维样本空间中找到一组超平面,将样本空间划分了两个区域。每个区域对应于不同的类别。数学上来说则是,我们能找到权值向量 w,使得输入向量 x和该权值向量 w的点积成为分类器的准则。
              
 即,公式2成立,则属于正类;反之,则是负类。
 
属性值为布尔变量的朴素贝叶斯分类器
      令属性值的取值为"1"或者"-1"。不等式3成立 判别输入向量 x=(x1,x2,x3,...,xn)为正类。   
             
 
      将不等式3推导成不等式5之后,令  
              
      则不等式5变化成不等式8.
             
      根据不等式8, 属性值为布尔变量的朴素贝叶斯分类器本质上找到了权值向量 w,使得输入 向量 x和该权值向量 w的点积成为分类器的准则。即,属性值为布尔变量的 朴素贝叶斯分类器本质上是线性分类器。为什么只说本质上是线性分类器,而不说是线性分类器呢?主要原因是,朴素贝叶斯分类器并没有显式地求出权值向量 w ,只是其判别准则(不等式3)本质上可以看成输入 向量 x和权值向量 w 的点积(不等式8)。
 
特定的高斯朴素贝叶斯分类器
      假设条件概率满足高斯分布,则称改朴素贝叶斯分类器为高斯朴素贝叶斯分类器。
              
      条件概率的方差相同的高斯朴素贝叶斯分布本质上是线性分类器。条件概率的方差相同的意思是,在不同类别的条件下某属性值成立的条件概率的方差相同,如公式10所示。
              
       不等式11成立 判别输入向量 x=(x1,x2,x3,...,xn)为正类。
             
       在公式9,10成立的情况下,不等式11可以推导到不等式15.不等式15是关于输入向量 x的线性运算,根据这点,我们可以看到条件概率的方差相同的高斯朴素贝叶斯分布本质上是线性分类器。
       直观上看,在条件概率的方差相同的高斯朴素贝叶斯分类器,两个类别的特征和类别的联合分布(即p( x|c)*p(c))如图左图所示。则判别准则其实就是图1右图中的粗黑直线。
            
                                                                                        图1

不是线性分类器的朴素贝叶斯分类器
     若是 高斯朴素贝叶斯分类器中条件概率的方差不相同。
            
     不等式20表明普通的高斯朴素贝叶斯分类器并不是线性分类器。

总结
     只有特定的某些朴素贝叶斯分类器本质上是线性分类器。

参考资料:
http://cs.nyu.edu/faculty/davise/ai/linearSeparator.html

原文地址: http://blog.163.com/rustle_go_go/blog/static/20294501420122110431306/

你可能感兴趣的:(朴素贝叶斯分类器本质上是线性分类器)