实战九:基于朴素贝叶斯方法对鸢尾花卉品种预测 代码+数据

1.理论部分

朴素贝叶斯是一种基于贝叶斯定理的有监督分类算法。该算法一个重要的特点:假设特征条件独立,正是这个假设使得朴素贝叶斯法的学习和预测变得简单。在特征条件独立的假设下,朴素贝叶斯法先利用训练数据集的先验统计信息计算特征向量与标签的联合概率分布,然后对于新输入的样本点,利用联合概率分布计算后验概率, 并用后验概率最大的输出标签确定为新样本点的类别。

  • 注意:假设特征条件独立正是朴素贝叶斯中“朴素”两字的来由。

贝叶斯定理它解决了生活中经常碰到的问题:已知某条件下的概率,如何得到两条件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)的概率。P(A|B)是后验概率(posterior probability),也就是我们常说的条件概率,即在条件B下,事件A发生的概率。相反P(A)或P(B)称为先验概率(prior probability·)。贝叶斯定理之所以有用,是因为我们在生活中经常遇到这种情况:我们可以很容易直接得出P(A|B),P(B|A)则很难直接得出,但我们更关心P(B|A),贝叶斯定理就为我们打通从P(A|B)获得P(B|A)的道路。

下面不加证明地直接给出贝叶斯定理:

P(A|B)=P(B|A)∗P(A)P(B)P(A|B)=P(B|A)∗P(A)P(B)

假如需要根据n个特征变量$X$来对$L$个类别进行分类,朴素贝叶斯分类器的原理就是对每一条记录$X$计算$L$个条件概率P(C|X),找到概率最大的那个类别作为分类结果。

你可能感兴趣的:(机器学习实战100例,数据挖掘,随机森林,深度学习)