朴素贝叶斯

朴素贝叶斯是利用后验概率最大化来判定数据的类别,朴素之处在于引入了条件独立性。每个特征独立的对分类结果起作用,这样类的条件概率就变成特征条件概率的乘积。

朴素贝叶斯的好处在于把特征和类的联合分布表示成一个类的先验概率和一组特征相关的条件概率分布的乘积。这个过程被称为因子分解。

当一个新的特征出现时,整体上的联合分布肯定会出现变化。利用因子分解,生成新的联合只需要添加新的特征关于输出类别的条件概率分布。无需对原始分布的其他参数做调整。

先验分布就是训练数据集不同类别数据所占的比例;每一个条件概率可以用最大似然概率来计算,其计算方式就是统计在同一类别的特征中,某一属性所占的比例。

这种统计方式会存在一个问题,当样本总量特别少的情况下,某一特征的属性就没有出现过,导致似然概率为0。

解决这种问题,传统的方式就是引入拉普拉斯平滑。拉普拉斯平滑的实质就是对隐含参数引入先验分布!

你可能感兴趣的:(朴素贝叶斯)