朴素贝叶斯分类器本质上是线性分类器

·本文最早发表在本人博客:http://www.gotoli.us/?p=173

朴素贝叶斯分类器本质上是线性分类器_第1张图片

朴素贝叶斯分类器是一种应用贝叶斯定理的分类器。线性分类器是通过特征的线性组合来做出分类决定的分类器。本质上,朴素贝叶斯分类器是一种线性分类器。朴素贝叶斯分类器是建立在属性变量相互独立的基础上,后验概率为判定准则的分类器。不等式1成立,则样例x=[x_1,...,x_n]为正类。否则,样例为负类。

(1)
Rendered by QuickLaTeX.com

线性分类器直观地来说,是在高维样本空间中找到一组超平面,将样本空间划分了两个区域。每个区域对应于不同的类别。数学上来说,线性分类器能找到权值向量w,使得判别公式可以写成特征值的线性加权组合。

(2)
Rendered by QuickLaTeX.com

如果公式2成立,则样本属于正类;反之,则样本属于负类。


离散特征的朴素贝叶斯分类器

一般离散特征的取值范围有两种,{-1,1}或者{0,1}。这两种取值方式不会影响分析。不妨假设离散特征的取值范围为{-1,1}。下面的不等式成立,样例x=[x_1,...,x_n]为正类。
(3)


朴素贝叶斯分类器本质上是线性分类器_第2张图片
Rendered by QuickLaTeX.com

对于某个特征x,我们很容易推导出下面的公式

(4)
Rendered by QuickLaTeX.com

其中p(x|F)也有类似的结果,从而有
(5)


朴素贝叶斯分类器本质上是线性分类器_第3张图片
Rendered by QuickLaTeX.com

将公式5带入朴素贝叶斯分类器的公式3,得到下面的公式
(6)


朴素贝叶斯分类器本质上是线性分类器_第4张图片
Rendered by QuickLaTeX.com

根据公式6,离散特征的朴素贝叶斯分类器判别公式能够写成特征值的加权线性组合。也就是说,离散特征的朴素贝叶斯分类器本质上是线性分类器。


连续特征的朴素贝叶斯分类器

朴素贝叶斯分类器也适用于连续特征。一般情况下,连续特征的朴素贝叶斯分类假设条件概率p(x|T)满足高斯分布。

(7)
Rendered by QuickLaTeX.com

如果同一个特征的条件概率方差相同,连续特征的朴素贝叶斯分类器也是线性分类器。条件概率的方差是指,在不同类别的条件下某属性值成立的条件概率的方差相同。

(8)
Rendered by QuickLaTeX.com

因此我们有

(9)
朴素贝叶斯分类器本质上是线性分类器_第5张图片
Rendered by QuickLaTeX.com

方差相同的情况下,连续特征的朴素贝叶斯分类器可以写成特征值的线性加权组合。方差相同的情况下,连续特征的朴素贝叶斯分布本质上是线性分类器。直观上看,方差相同的情况下,两个类别的特征和类别的联合分布(即p(x|T)p(T)和p(x|F)*p(F))如下图的左图所示。判别准则其实就是下图右图中的黑色直线。


朴素贝叶斯分类器本质上是线性分类器_第6张图片

不是线性分类器的朴素贝叶斯分类器

其实并不是所有的朴素贝叶斯分类器都是线性分类器。如果连续特征的朴素贝叶斯分类器中方差不相同,那我们就会发现判别公式不能写成特征值的线性加权组合。

(10)
朴素贝叶斯分类器本质上是线性分类器_第7张图片
Rendered by QuickLaTeX.com

上面的不等式表明,方差不相等的情况下,连续特征的朴素贝叶斯分类器判别公式不能写成特征值的线性加权组合(判别公式与特征值x_i的二次方有关)。上述例子表明,只有某些具有特定属性的朴素贝叶斯分类器才是线性分类器。

你可能感兴趣的:(朴素贝叶斯分类器本质上是线性分类器)