机器学习-贝叶斯

贝叶斯概述:

  • 贝叶斯分类算法是统计学中的一种概率分类方法,朴素贝叶斯分类是贝叶斯分类中最简单的一种。其分类原理就是利用贝叶斯公式根据某特征的先验概率计算出其后验概率,然后选择具有最大后验概率作为该特征所属的类。
  • 之所以称之为“朴素”,是因为贝叶斯分类只做最原始、最简单的假设:所有的特征之间是相对独立的。

推导过程:

假设:A,B为独立事件,

  1. 那么,B在Ai发生后发生的概率为:P(B|Ai) = P(Ai) * P(B)

  2. 若事件A1,A2,…,An构成一个完备事件组,那么P(B) = P(A1) * P(B|A1) + P(A2) * P(B|A2).....P(An) * P(B|An)

  3. 已知:P(B) 发生的概率了,求在B发生后Ai发生的概率

  4. P(B)已经知道为:P(B) = P(A1) * P(B|A1) + P(A2) * P(B|A2).....P(An) * P(B|An)

  5. P(Ai|B)为:P(Ai)* P(B| Ai)。

  6. 但是,P(B)发生时一系列的P(Ai)发生和P(B|Ai) 的和,所以P(Ai|B)为:P(Ai)* P(B| Ai)/(P(A1) * P(B|A1) + P(A2) * P(B|A2).....P(An) * P(B|An))

推荐视频:「一个模型」教你搞定贝叶斯和全概率公式

贝叶斯分类:

  • 都是源于贝叶斯,然后根据不同特点在进行划分。

  • 多项式贝叶斯:多项式朴素贝叶斯常用语文本分类,特征是单词,值时单词出现的次数。多项式模型在计算先验概率P(Yk)和和条件概率P(Xi|Yk)时,会做出一些平滑处理

  • 高斯贝叶斯:当特征是连续变量的时候,假设特征分布为正态分布,根据样本算出均值和方差,再求得概率。

  • 伯努利贝叶斯:伯努利模型适用于离散特征的情况,伯努利模型中每个特征的取值只能是1和0,特别是用是非的判断模型。

处理大致流程:

image.jpeg

使用总结:

  • 小示例见下面个人主机资源和强烈推荐的博客,很不错
  • 一般来说,如果样本特征的分布大部分是连续值,使用高斯朴素贝叶斯会比较好。
  • 如果样本特征的分布大部分是多元离散值,使用多项式朴素贝叶斯比较合适。
  • 如果样本特征是二元离散值或者很稀疏的多元离散值,应该使用伯努利朴素贝叶斯比较合适。

学习参考:

1、https://cuijiahua.com/blog/ml/ (强烈推荐)
2、https://scikit-learn.org/stable/install.html#installation-instructions
3、http://60.205.184.182/ (个人主机,配置有限,请勿猛烈请求)已经废弃

你可能感兴趣的:(机器学习-贝叶斯)