先简单看看公式的定义:
先验概率
: P ( c )
后验概率
: P ( c | x)
条件概率
: P ( x | c)
参数的含义:
c: 某类样本
x: 样本c的某个或者某组属性
我们来看看周志华老师的《机器学习》中的一个例子:
①我们有一组西瓜数据集:
②我们需要对下面这个西瓜样本进行好/坏测试(样本记为“测试1”):
即这个样本中的属性(色泽、根蒂、敲声等)就是我们之前的参数x。也就是我们要根据这个x估计我们的样本类别c(好瓜还是坏瓜)= 之前提到的后验概率P ( c | x) 。
③利用贝叶斯公式进行估计:
不难发现基于贝叶斯公式来估计后验概率 P(c I x) 的主要用难在于: 类条件概率 P(x I c) 是所有属性上的联合概率,难以从有限的训练样本直接估计而得。为避开这个障碍,朴素贝叶斯分类器(naÏve Bayes classifier) 采用了"属性条件独立性假设" (attribute conditional ependence assu’mption):对已知类别,假设所有属性相互独立。换言之,假设每个属性独立地对分类结果发生影响。于是就可以重写上面的贝叶斯公式:
④具体计算步骤: