Naive-Bayes(朴素贝叶斯)

原理:朴素贝叶斯算法是一个典型的统计学习方法,主要理论基础就是一个贝叶斯公式,贝叶斯公式的基本定义如下:

这个公式虽然看上去简单,但它却能总结历史,预知未来:公式右边总结历史,公式左边预测未来

如果把Y看成类别,X看成特征,P(Yk|X)就是在已知特征X的情况下求Yk类别的概率,而对P(Yk|X)的计算又全部转化到类别Yk的特征分布上来。

朴素的概念:独立性假设,假设各个特征之间是独立不相关的。

优点:

        朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率;

        对小规模的数据表现很好;

        能处理多分类任务,适合增量式训练;

        对缺失数据不太敏感,算法也比较简单,常用于文本分类

缺点:

        只能用于分类问题

        需要计算先验概率;

        分类决策存在错误率;

        对输入数据的表达形式很敏感

一、高斯分布朴素贝叶斯

from sklearn.naive_bayes import GaussianNB

用途:用于一般分类问题

二、多项式分布朴素贝叶斯

from sklearn.naive_bayes import MultinomialNB

多项式分布:

用途:适用于文本数据(特征表示的是次数,例如某个词语的出现次数)

三、伯努利分布朴素贝叶斯

from sklearn.naive_bayes import BernoulliNB

伯努利分布:

用途:适用于伯努利分布,也适用于文本数据(此时特征表示的是是否出现,例如某个词语的出现为1,不出现为0)。绝大多数情况下表现不如多项式分布,但有的时候伯努利分布表现得要比多项式分布要好,尤其是对于小数量级的文本数据

from sklearn.naive_bayes import BernoulliNB

你可能感兴趣的:(Naive-Bayes(朴素贝叶斯))