在日常学习之中,我们经常能见到各种带有“贝叶斯”的词语,例如贝叶斯决策、朴素贝叶斯、贝叶斯估计,有时就会在诸如机器学习或者模式识别的课程上遇到它们中的一两个,学习的时候能把其中某个弄得清清楚楚,时间一长,反而这几个就有些混淆了,因此,集中进行学习整理。
总结来说,朴素贝叶斯包含于贝叶斯决策,贝叶斯决策与贝叶斯估计的任务不同,它们都是基于贝叶斯定理去解决不同的问题;贝叶斯决策任务在于学习一个分类器,贝叶斯估计的目的在于学习概率模型中的参数。
通过一个例子来说明贝叶斯公式——癌细胞的识别,假设每个癌细胞经过预处理抽取出 d 个细胞基本特征,成为一个 d 维的向量 x ,识别的目标是将 x 分类为正常细胞或者异常细胞,如果用 w 表示,则
即可以通过类别状态的先验概率和特征观察值的类条件概率密度获得类别状态的后验概率,这就是贝叶斯公式所能做到的事情。
那么假设我们拿到一个新的待分类细胞,已知它的特征向量 x ,就可以通过贝叶斯公式计算在特征观察值为 x 的条件下,类别状态为 wi 的概率,也就是特征观察值为 x 的细胞属于类别 wi 的概率,很容易我们会想到,属于哪个类别的概率大,就把该细胞归到哪一类中去呗,这就是贝叶斯决策中的最小错误率法。
按照决策规则的不同,贝叶斯决策可以分为最小错误率贝叶斯决策和最小风险贝叶斯决策,下面分开详述。
依然考虑细胞分类的问题,在介绍贝叶斯公式小节中,我们已经知道通过贝叶斯公式可以来获得特征观察值为 x 的细胞属于类别 wi 的概率,然后我们只需要通过选择一个后验概率最大的类别来作为最终的判断结果。
这就是基于最小错误率的贝叶斯决策,也就是说这种决策规则会使得错误率期望最小化(仿佛是废话,废话也要证明的)。
证明:
首先应指出,错误率是指平均错误率,或者说是错误率的期望,以 P(e) 来表示,其定义为:
依然考虑细胞分类的问题,考虑这么一种情景,如果医生把正常细胞判断为癌细胞则会给病人带来精神上的负担,如果把癌细胞判断为正常细胞则可能导致病人耽误了最佳的治疗时机,相比来说,后者的代价更大,此时,需要改进决策规则,以区别对待这两种情况,最小风险贝叶斯决策正是考虑各种错误的不同损失而提出的一种决策规则。
为清楚表达,我们首先定义一些符号:
1.特征的观察值 x 是 d 维的向量
OK,符号定义结束,下面介绍基于最小风险的贝叶斯决策是怎么进行决策的,分为3步:
1.已知类别的先验概率 P(wj) ,类条件概率密度 p(x|wj) ,根据贝叶斯公式,计算后验概率:
把最小风险贝叶斯决策的步骤列出来,跟最小错误率贝叶斯决策的步骤对比,就很容易看出来,最小风险是最小错误率的升级版、特例。
当最小风险贝叶斯决策中的决策表满足以下条件时,最小风险退化为最小错误率:
贝叶斯决策是一种统计决策理论,用于设计分类器,针对分类任务。
朴素贝叶斯就是朴素的贝叶斯决策,就是基于特征独立假设的贝叶斯决策,也就说,朴素贝叶斯是对贝叶斯决策进一步讨论。
依然考虑细胞分类问题,在细胞的特征中,假设有两个特征:细胞液浓度、细胞核大小;
拿到一个待检测的细胞时,医生会观察这两个特征,那么这两个特征是相互独立的吗?或者说这两个特征是互不相关的吗?是互不影响的吗?
凭借我有限的高中知识,我觉得这两个特征多半不是互相独立的?我认为细胞液的浓度可能会印象细胞核的大小,或者细胞核的大小会通过某种复杂的生理反应,影响细胞液的浓度,总之,它们两个应该不是互相独立的。
那对我们构建分类器有什么影响呢?
无论是最小错误率贝叶斯决策还是最小风险贝叶斯决策,第一步都是根据贝叶斯公式,利用先验概率和类条件概率求后验概率:
其中 p(x|wi) 就是类条件概率密度,其中 x 是个特征向量 x=[x1,x2,...,xd]T ;有个严重的问题是,这个类条件概率密度我们总是假设它已知,然而真实情况是,它并非已知,而且貌似没那么好估计,因为特征向量包含多的特征,这就导致类条件概率密度函数中的参数个数为指数级别,很难进行估计。
事实上,假设特征向量 x 的第 j 个特征 xj 可取值有 Sj 个,那么参数个数为 c∏dj=1Sj 。
于是采用一种办法来进行简化:
假设特征向量中的各个特征之间相互独立(虽然它们未必相互独立,但是为了可行性,只好这么假设),那么就有:
获得了类条件概率密度之后,就可以进行贝叶斯决策了。
贝叶斯公式以两个已知条件为前提:
1.先验概率已知。
2.类条件概率密度已知。
然而条件2不容易满足,因为往往面临多个特征,类条件概率密度函数参数过多,无法进行估计。
退让一步,假设特征两两之间相互独立,类条件概率密度的函数形式得到大大简化且易于估计,于是条件2得以满足。
朴素贝叶斯是对贝叶斯决策的展开讨论。
(待)
如有错误,敬请指正。