朴素贝叶斯分类

朴素贝叶斯分类

贝叶斯原理

贝叶斯为了解决一个叫“逆向概率”问题写的一篇文章,在没有太多可靠证据的情况下,做出符合数学逻辑的推测。

通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A(发生)的条件下的概率是不一样的。然而,这两者是有确定的关系的,贝叶斯定理就是这种关系的陈述。贝叶斯公式的一个用途在于通过已知的三个概率函数推出第四个。

定义: 贝叶斯定理是关于随机事件A和B的条件概率的一则定理。

P ( A ∣ B ) = P ( A ) ∗ P ( B ∣ A ) P ( B ) P(A|B) = \frac{P(A) * P(B|A)}{P(B)} P(AB)=P(B)P(A)P(BA)

其中P(A|B)是指在事件B发生的情况下事件A发生的概率。

  • 先验概率: P(A)A 的先验概率,因为它不考虑任何B方面的因素,以经验进行判断
  • 后验概率: P(A|B)是已知B发生后A的条件概率,因此B被称作A的后验概率,以结果进行判断
  • 条件概率:事件A在事件B已经发生的条件下发生的概率,表示P(A|B),在某个条件下,发生结果的概率。
  • 似然函数:可以将概率模型的训练过程理解为求解参数估计的过程,似然函数就是用来衡量改模型的参数,关于统计参数的函数。
  • 标准似然度: P(B|A)/P(B)被称作标准似然度。

贝叶斯定理: 后验概率 = (似然性 * 先验概率) / 标准化常量,可以表述为 后验概率 = 标准似然度 * 先验概率

实际上贝叶斯原理就是求解后验概率。

朴素贝叶斯

一种简单但极为强大的预测建模算法。

朴素贝叶斯之所以朴素是因为它假设属性是相互独立的,因此对实际情况有所约束,如果属性之间存在关联,分类准确会降低,不过好在大部分情况下,朴素贝叶斯分类效果都不错。

朴素贝叶斯模型 由两种类型的概率组成:

  1. 每个类别的概率P(Cj)
  2. 每个属性的条件概率P(Ai|Cj)

示例:

  • 类别概率:假设有7个球,3个是白色,4个是红色,白色球的概率是3/7,红色球概率是4/7
  • 条件概率:将7个球放入到两个盒子,盒子A有2白2红;盒子B有1白2红。在盒子A抓到白概率为1/2,抓到黑概率1/2。这个就是在某条件(盒子A)下的概率。
  • 属性的条件概率:在条件概率的情况下,假设取出来的是白球,那么属于盒A的概率是2/3

训练朴素贝叶斯模型

先给出训练数据,以及这些数据对应的分类,那么上面的两个概率,也就对应类别概率和条件概率,都可以从给出的训练数据中计算出来,一旦计算出来就可以使用 贝叶斯原理 对新数据进行预测。

也就是计算A、B A|B三个的概率模型

三者间的关系

贝叶斯原理、贝叶斯分类和朴素贝叶斯三者之间的区别

  1. 贝叶斯原理是最大的概念,解决了概率论中的逆向概率问题。
  2. 贝叶斯原理基础上设计出贝叶斯分类器,朴素贝叶斯分类是贝叶斯分类器中的一种,也是最简单和最常用的。
    朴素贝叶斯分类_第1张图片

朴素贝叶斯分类工作原理

朴素贝叶斯分类是常用的贝叶斯分类方法,我们要判断一个人的性别,通常从身高、体重、头发长度、声音来判断,这里的经验就是一个训练好性别判断的模型,训练数据就是生活中遇到的人,以及这些人的性别数据。

遇到的数据分为两类

  1. 离散数据:整数1、2、3就是离散数据
  2. 连续数据:1到3之间任何数就是连续数据

连续数据

我们可以对连续变量,采用正态分布,通过样本计算出均值和方差,也就是得到正态分布的密度函数,有了密度函数,就可以将值代入来计算某一密度函数的值。

朴素贝叶斯分类器工作流程

常用于文本分类,垃圾文本过滤,情感预测,推荐系统。

朴素贝叶斯分类_第2张图片

第一阶段:准备节点

确定特征属性,并对每个特征属性进行划分,然后人工对一部分数据进行分类,形成训练样本。

这是朴素贝叶斯分类中唯一需要人工完成的阶段,质量对整个过程有重要影响,分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定的。

第二阶段:训练阶段

该阶段就是生成分类器,主要工作计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率

输入是特征属性和训练样本,输出是分类器

第三阶段:应用阶段

使用分类器对新数据进行分类,输入是分类器和新数据,输出是新数据的分类结果。


你可能感兴趣的:(朴素贝叶斯,数据分析)