机器学习算法一:浅析贝叶斯分类器与朴素贝叶斯

1.贝叶斯公式
贝叶斯分类器是在概率论框架下的一种基本分类方法,对于分类任务来说就是在所有相关概率都已知的情况下(先验概率和条件概率),得到最优的类别标记。

首先来看经典的贝叶斯公式:

p(c|x)=p(x|c)p(c)p(x) p ( c | x ) = p ( x | c ) p ( c ) p ( x )

其中 p(c) p ( c ) 代表先验概率,表示每种分类属性的分布概率; p(x|c) p ( x | c ) 为条件概率,也称为似然,代表在c类属相下,时间x的概率; p(c|x) p ( c | x ) 为后验概率,表示对于时间x,类别c的概率。

2.贝叶斯决策原理
λ λ 表示将一个真实样本 ci c i 误分类为 cj c j 的损失,基于后验概率可以可以获得样本x分类为c的期望损失(风险):失

R(cj|x)=λp(ci|x) R ( c j | x ) = ∑ λ p ( c i | x )

为了使总体风险最小化,只需要对于每个样本x的使 R R 最小化条件风险:
h(x)=argminR(c|x) h ∗ ( x ) = a r g m i n R ( c | x )

这里的 h h ∗ 称为最优贝叶斯分类器,对应总体最小化风险(贝叶斯风险), 1Rh 1 − R ( h ∗ ) 反应了分类器能达到的最优精度,也就是机器学习精度的理论上限。由 1Rh 1 − R ( h ∗ ) 可知,最优贝叶斯分类器也可定义为:
h(x)=argmaxp(c|x) h ∗ ( x ) = a r g m a x p ( c | x )

所以我们最终可知,对于每个样本x,选择能使后验概率 p(c|x) p ( c | x ) 最大化的分类标记,就可以接近最优贝叶斯分类器,换句话说,后验概率越大,说明某事物属于这个类别的可能性越大,我们越有理由把它归到这个类别下,这就是贝叶斯分类器的原理。

3.简单例子
我们来看一个直观的例子:
已知在夏季,某公园男性穿凉鞋的概率为1/2,女性穿凉鞋的概率为2/3,并且该公园中男女比例通常为2:1,问题:若你在公园中随机遇到一个穿凉鞋的人,请问他的性别为男性或女性的概率分别为多少?
设: c1 c 1 为男性, c2 c 2 为女性, x x 为穿凉鞋的人
有题目可知:
先验概率 p(c1)=2/3 p ( c 1 ) = 2 / 3 ; p(c2)=1/3 p ( c 2 ) = 1 / 3
条件概率 p(x|c1)=1/2 p ( x | c 1 ) = 1 / 2 ; p(x|c2)=2/3 p ( x | c 2 ) = 2 / 3
男性和女性穿凉鞋相互独立,所以 p(x)=p(x|c1)p(c1)+p(x|c2)p(c2)=5/9 p ( x ) = p ( x | c 1 ) p ( c 1 ) + p ( x | c 2 ) p ( c 2 ) = 5 / 9
由贝叶斯公使求得:

p(c1|x)=p(x|c1)p(c1)p(x)=3/5 p ( c 1 | x ) = p ( x | c 1 ) p ( c 1 ) p ( x ) = 3 / 5

p(c2|x)=p(x|c2)p(c2)p(x)=2/5 p ( c 2 | x ) = p ( x | c 2 ) p ( c 2 ) p ( x ) = 2 / 5

4.朴素贝叶斯
由上文的例子我们可以很直观的理解贝叶斯分类器,但是在实际问题中先验概率和条件概率是无法直接得到的。我们只能通过有限的数据来估计。
先验概率 p(c) p ( c ) 的估计较为简单,可以根据大数定律,当样本充分独立同分布时,根据各样本的出现频率来估算。
条件概率 p(x|c) p ( x | c ) 的估计很难,由于它 涉及到了样本x所有类别属性的联合概率,它包含了所有随机变量的全部信息,例如:有d个属性样本,属性为二分类,那么样本空间为 2d 2 d 种可能,大部分情况 2d 2 d 都会远大于样本数m,很多可能情况样本m中都没有出现,无法直接用出现频率来估计。解决的办法之一就是,把估计完全未知的概率密度转化为估计参数。这里就将概率密度估计问题转化为参数估计问题,极大似然估计就是一种参数估计方法。

除了估计以外,为了直接避免这个障碍,朴素贝叶斯就因运而生了。
朴素贝叶斯使用的重要前提是:属性条件独立性假设,即对于已知的属性类别,假设其之间相互独立,互不影响。
基于此假设,贝叶斯公式可重写为

p(c|x)=p(x|c)p(c)p(x)=p(c)p(x)idp(xi|c) p ( c | x ) = p ( x | c ) p ( c ) p ( x ) = p ( c ) p ( x ) ∏ i d p ( x i | c )

其中d为属性数目, p(xi|c) p ( x i | c ) 为数据中对应属性的分类所占概率,自然贝叶斯判定准则也就变为了:
h(x)=argmaxp(c)idp(xi|c) h ∗ ( x ) = a r g m a x p ( c ) ∏ i d p ( x i | c )

由朴素贝叶斯的原理我们可知,在属性条件独立性假设下,条件概率被直接用数据在所有分类属性下的出现频率的乘积代替,使得计算过程简单了许多。

优点:对于在小数据集上有显著特征的相关对象,朴素贝叶斯方法可对其进行快速分类,适合多分类任务,适合增量式训练。
朴素贝叶斯的缺点:对输入数据的表达形式很敏感
场景举例:情感分析、消费者分类

你可能感兴趣的:(机器学习理论,机器学习)