朴素贝叶斯原理总结

贝叶斯原理

贝叶斯原理其实是用来求“逆向概率”的。所谓“逆向概率”是相对“正向概率”而言。就是从结果推出条件。贝叶斯原理建立在主观判断的基础上:在我们不了解所有客观事实的情况下,同样可以先估计一个值,然后根据实际结果不断进行修正。

贝叶斯公式

朴素贝叶斯原理总结_第1张图片
实际上,贝叶斯公式就是求阶后验概率的。

朴素贝叶斯

它是一种简单但极为强大的预测建模算法。之所以称为朴素贝叶斯,是因为它假设每个输入变量是独立的。这是一个强硬的假设,实际情况并不一定,但是这项技术对于绝大部分的复杂问题仍然非常有效。

输入变量就是特征,朴素贝叶斯假设这些特征之间是没有关系的,是独立事件。因此算特征概率的时候可以分开算然后相乘。

朴素贝叶斯模型由两种类型的概率组成:
  • 每个类别的概率P(Cj);
  • 每个属性的条件概率P(Ai|Cj)。

类别概率和条件概率的区别:

类别概率是输出变量之间的概率,与特征没有关系。但条件概率是基于特征的变量的概率。

为了训练朴素贝叶斯模型,我们需要先给出训练数据,以及这些数据对应的分类。那么上面这两个概率,也就是类别概率和条件概率。他们都可以从给出的训练数据中计算出来。一旦计算出来,概率模型就可以使用贝叶斯原理对新数据进行预测。

贝叶斯原理、贝叶斯分类器、朴素贝叶斯的区别

贝叶斯原理是最大的概念,它解决了概率论中“逆向概率”的问题,在这个理论基础上,人们设计出了贝叶斯分类器,朴素贝叶斯分类是贝叶斯分类器中的一种,也是最简单,最常用的分类器。朴素贝叶斯之所以朴素是因为它假设属性是相互独立的,因此对实际情况有所约束,如果属性之间存在关联,分类准确率会降低。不过好在对于大部分情况下,朴素贝叶斯的分类效果都不错。

实际上,贝叶斯原理是数学基础,贝叶斯分类是一种模型,而朴素贝叶斯则是具体方法。

朴素贝叶斯分类的工作流程

  1. 输入和输出,输入训练的数据集,第i个样本的第j个特征,第j个特征可能取得第l个值:输出x的分类
  2. 计算出先验概率和条件概率,对于给定的实例,基于独立假设条件下计算联合概率P(X=x,Y=ck),根据最大化后验概率法则,确定x的类别。

先验概率:通过经验来判断事情发生的概率,比如说“贝叶死”的发病率是万分之一,就是先验概率。再比如南方的梅雨季是 6-7 月,就是通过往年的气候总结出来的经验,这个时候下雨的概率就比其他时间高出很多。

后验概率:后验概率就是发生结果之后,推测原因的概率。比如说某人查出来了患有“贝叶死”,那么患病的原因可能是 A、B 或 C。患有“贝叶死”是因为原因 A 的概率就是后验概率。它是属于条件概率的一种。

条件概率:事件 A 在另外一个事件 B 已经发生条件下的发生概率,表示为 P(A|B),读作“在 B 发生的条件下 A 发生的概率”。比如原因 A 的条件下,患有“贝叶死”的概率,就是条件概率。

朴素贝叶斯原理总结_第2张图片
那么我们通过输入的特征和目标变量就可以求出先验概率和条件概率。通过条件独立性假设和最大似然估计(后验概率最大化)来得出最后的分类。

后验概率最大化的含义

我们这里假设为0-1损失函数,为了使损失函数最小相当于后验概率最大化。

原理

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的待分类项xx,通过学习到的模型计算后验概率分布,即:在此项出现的条件下各个目标类别出现的概率,将后验概率最大的类作为xx所属的类别。

在估计条件概率P(X∣Y)P(X∣Y)时出现概率为0的情况怎么办?

解决这一问题的方法是采用贝叶斯估计。简单来说,引入λλ,当λ=1λ=1时,就是普通的极大似然估计;当λ=1λ=1时称为拉普拉斯平滑。。

怎么理解朴素贝叶斯中的“朴素”?

因为它假定所有的特征在数据集中的作用是独立同分布的,但这个假设在现实生活中很不真实,因此很“朴素”。

为什么引入条件独立性假设?

为了避免贝叶斯定理求解时面临的组合爆炸、这就导致条件概率分布的参数数量为指数级别。

朴素贝叶斯朴素在哪里?

在计算条件概率分布P(X=x∣Y=ck)P(X=x∣Y=c
k)时,NB引入了一个很强的条件独立假设,即,当Y确定时,X的各个特征分量取值之间相互独立。

朴素贝叶斯与LR的区别?

(1)简单来说:

朴素贝叶斯是生成模型,根据已有样本进行贝叶斯估计学习出先验概率P(Y)和条件概率P(X|Y),进而求出联合分布概率P(XY),最后利用贝叶斯定理求解P(Y|X), 而LR是判别模型,根据极大化对数似然函数直接求出条件概率P(Y|X);
朴素贝叶斯是基于很强的条件独立假设(在已知分类Y的条件下,各个特征变量取值是相互独立的),而LR则对此没有要求;
朴素贝叶斯适用于数据集少的情景,而LR适用于大规模数据集。
(2)进一步说明:前者是生成式模型,后者是判别式模型,二者的区别就是生成式模型与判别式模型的区别。

朴素贝叶斯的三种模型

  • 多项式模型,特征是离散的时候,用多项式模型或做一些平滑的处理。一般是拉普拉斯平滑,这时候用到的是贝叶斯估计,不再是极大似然估计。因为如果不做平滑,当出现一些训练样本中没有的数据时,会使条件概率为0,从而导致后验概率为0
  • 高斯模型,当特征是连续变量时,运用多项式模型,条件概率难以描述真实情况。因此此时用高斯模型,假设特征都服从正态分布。就是求出某一特征的样本和方差得到该特征的正态分布,然后带入样本点进概率密度函数估计为条件概率值,这样就可以计算性别分类了。
  • 伯努利分布

你可能感兴趣的:(机器学习基础)