机器学习之三:贝叶斯分类器

贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。也就是说,贝叶斯分类器是最小错误率意义上的优化。目前研究较多的贝叶斯分类器主要有四种,分别是:Naive Bayes、TAN、BAN和GBN。

1、训练

和所有监督算法一样,贝叶斯分类器是利用样本进行训练的,每个样本包含了一个特征列表和对应的分类。假定我们要对一个分类器进行训练,使其能够正确的判断出:一个包含”python”的文档究竟是编程语言的,还是关于蛇的。

分类器记录了它迄今为止见过的所有特征,以及这些特征与某个特定分类相关的数字概率。分类器逐一接受样本的训练。
当经过某个样本的训练之后,分类器会更新该样本中特征与分类的概率,同时还会生成一个新的概率,即:在一篇属于某个分类的文档中,含有指定单词的概率。例如

从上表中我们可以看到,经过训练之后,特征与各种分类的关联性更加明确了。单词”constrictor”属于蛇的分类概率更大,而单词”dynamic”属于编程语言的概率更大。

另一方便,有些特征的所属分类则没有那么明确。比如:单词”and”出现在两个分类中的概率是差不多的(单词and几乎会出现在每一篇文档中,不管它属于哪一个分类。)分类器在经过训练之后。只会保留一个附有相应概率的特征列表,与某些其他的分类方法不同,此处的原始数据在训练之后,就没有必要再加以保存了。

2、分类

当一个贝叶斯分类器经过训练之后,我们就可以利用它来对新的项目进行自动分类了。假定我们有一篇新的文档,包含了“long” “dynamic” 和 “source”。

朴素贝叶斯分类器是通过下面的公式将概率组合起来的:
P( Category | Document) = P ( Document | Category ) * P( Category) / P(Document)

此处:

P( Document | Category) = P (Word1 | Category ) * P( Wor

你可能感兴趣的:(【机器学习与模式识别】,【机器视觉与模式识别】)