统计机器学习-朴素贝叶斯法

朴素贝叶斯法首先学习输入/输出的联合概率分布。然后基于此模型给定的输入,利用贝叶斯定理求出后验概率最大的输出,即概率最大的。

基本方法

设输入空间为维向量的集合,输出空间为类标记集合。输入为特征向量,输出为类标记。是定义在输入空间上的随机向量,是定义在输出空间上的随机变量。是和的联合概率分布。训练数据集

由独立同分布产生。

如果要学习,直接的方法就是学习和,使得。但是

条件有个取值,如果每个有个取值,则该条件概率共有个取值,是指数级数量的参数。所以这种方法是不可行的。

朴素贝叶斯法对条件概率作了条件独立性假设,即

朴素贝叶斯法分类时,对给定的输入,通过学习到的模型计算后验概率,将后验概率最大的类作为的类输出:

将公式(1)代入

由于分母部分对于给定的输入都相同,所以只需要比较分子部分的大小,就可以决定输入的分类。参数和通过在数据集中统计得到。下面给出朴素贝叶斯算法。

朴素贝叶斯算法

输入:训练数据,其中,是第个样本的第个特征,,是第个特征可能取的第个值,,,;实例;

输出:实例的分类。

(1)计算先验概率及条件概率

(2)对于给定的实例,计算

(3)确定实例的类

贝叶斯估计

在训练数据集中,可能出现的情况,即样本中这种情况一次都没有出现,这样会造成,使分类产生偏差。解决这个问题的方法是贝叶斯估计,即在统计和时加入一个平滑

其中,可以看出,此时和仍是符合概率分布的。通常取1,这时称为拉普拉斯平滑。

你可能感兴趣的:(统计机器学习-朴素贝叶斯法)