朴素贝叶斯分类算法简介

先验概率(边缘概率)指根据以往经验和分析得到的概率,比如全概率公式。是"由因求果"问题中的"因"。

后验概率(条件概率)指在得到“结果”的信息后重新修正的概率。是“执果寻因”问题中的"果"。

后验概率的计算,要使用贝叶斯公式,而且在利用样本资料计算逻辑概率时,还要使用理论概率分布,需要更多的数理统计知识。

贝叶斯公式是关于随机事件A和B的条件概率的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。

朴素贝叶斯分类算法是应用最为广泛的分类算法之一,是以贝叶斯定理为基础,并且假设特征条件之间相互独立的方法。

先通过已给定的训练集,以特征词之间独立作为前提假设,学习从输入到输出的联合概率分布,再基于学习到的模型,输入X求出使得后验概率最大的输出Y

样本数据集D={d1,d2,...,dn}

对应样本数据的特征属性集X={x1,x2,...,xd}   (x1...xd相互独立且随机)

类变量Y={y1,y2,...,ym}   (即D可以分为ym类别)

Y的先验概率为:

Y的后验概率为:

根据贝叶斯算法可得:

在给定类别 Y 的情况下,进一步表示为:

根据上两式最终可得后验概率为:

由于P(X)大小固定不变,因此在比较后验概率时,只比较上式的分子即可。因此可以得到一个样本数据属于类别 yi 的朴素贝叶斯计算:

 

你可能感兴趣的:(算法)