朴素贝叶斯法属于生成模型。(学习生成数据的机制)
先验概率
条件概率
后验概率
结果推原因。已知x发生的概率下,是类ck的概率。
贝叶斯定理
特征条件独立假设
用于分类的特征在类确定的条件下都是条件独立的。
全概率公式
原因推结果。
条件概率公式
期望风险、经验风险、结构风险
参考阅读:期望风险、经验风险、结构风险
上图就是贝叶斯分类器。条件概率,先验概率,都已习得,故可以求解。
公式中的分母对每一类别ck都是一样的,故可省略,最终得到:
这部分可以联想上一个KNN算法选取k个邻居中数目最多的类别标签。
这里将实例分类为后验概率最大的类中,实际等价与期望风险最小化。
假定选择0-1损失函数(不重要)。
其中,f(X)为我们习得的分类决策函数。
经过一系列变换得到:
由此可印证期望风险最小化准则等价于后验概率最大化原则。
等于
先验概率P(Y=ck)的极大似然估计:
条件概率P(X(j)=aji|Y=ck)的极大似然估计:
其中xi(j)是第i个样本的第j个特征;ajl是第j个特征可能取得第l个值;I为指示函数。
github代码地址
第一,介绍下步骤: