一、贝叶斯分类
贝叶斯分类是一类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。
先验概率 根据以往的经验和分析得到的概率,用P(Y)来代表在没有训练数据前假设Y拥有的初始概率。
后验概率 根据已经发生的时间来分析得到的概率。以P(Y|X)代表假设X成立的情况下观察Y数据的概率,因为它反映了在看到训练数据X后Y成立的置信度。
联合概率 是指在多元的概率分布中多个随机变量分别满足各自条件的概率。X与Y的联合概率表示为P(X,Y)、P(XY)
贝叶斯公式:
朴素贝叶斯是典型的生成学习方法。生成方法由训练数据学习联合概率分布P(X,Y),然后求得后验概率分布P(Y|X).
二、朴素贝叶斯原理
判别模型和生成模型
监督学习方法分为生成方法和判别方法
模型分别称为生成模型和判别模型
判别模型 | 生成模型 |
---|---|
由数据直接学习决策函数Y=f(X)或者条件概率分布P(Y | X)作为预测的模型,即判别模型。基本思想是有限样本条件下建立判别函数,不考虑样本的生产模型,直接研究预测模型 |
线性回归、逻辑回归、感知机、决策树、支持向量机… | 朴素贝叶斯、HMM、 |
1.朴素贝叶斯是典型的生成学习方法
生成方法由训练数据学习联合概率分布 (, ),然后求得后验概率分
布(|)。具体来说,利用训练数据学习(|)和()的估计,得到
联合概率分布:
(, )=()(|)
概率估计方法可以是极大似然估计或贝叶斯估计。
2.朴素贝叶斯法的基本假设是条件独立性。
3.朴素贝叶斯法利用贝叶斯定理与学到的联合概率模型进行分类预测
根据生成模型定义我们可以求(, )和()假设中的
特征是条件独立的。这个称作朴素贝叶斯假设。 形式化表示为,(如果给定
的情况下,和条件独立):
也可以表示为:
概率出现为零时,通过拉普拉斯平滑,为每个计数加1,因此永远不会为零。