python机器学习之sklearn库(6.朴素贝叶斯算法,高斯、多项式、伯努利模型)

高斯分布模型

 

  • 高斯模型API
    • from sklearn.naive_bayes import GaussianNB 
      • 参数:
        • prior:默认值表示自行根据数据计算先验概率。
        • - predict_proba(): 给出每一个测试集样本属于每个类别的概率,最大的就是分类结果
        • - predict_log_proba(): predict_proba的对数转化,最大的就是分类结果
    • 实例化模型对象的时候,我们不需要对高斯朴素贝叶斯类输入任何的参数,可以说是一个非常轻量级的类,操作非常容易。但过于简单也意味着贝叶斯没有太多的参数可以调整,因此贝叶斯算法的成长空间并不是太大,如果贝叶斯算法的效果不是太理想,我们一般都会考虑换模型。

多项式模型

多项式模型

  • 介绍:
    • 与高斯分布相反,多项式模型主要适用于离散特征的概率计算,且sklearn的多项式模型不接受输入负值。虽然sk-learn中的多项式模型也可以被用作在连续性特征概率计算中,但是我们如果想要处理连续性变量则最好选择使用高斯模型。
      • 注意:因为多项式不接受负值的输入,所以如果样本数据的特征为数值型数据的话,务必要进行归一化处理保证特征数据中无负值出现!!!
  • 原理:计算出一篇文章为某些类别的概率(文章是固定的,也就是说在该文章为前提下求出所属类别的概率,因此文章就是概率论中条件概率的条件

你可能感兴趣的:(机器学习,py模块,python,sklearn,机器学习)