朴素贝叶斯原理推导

贝叶斯原理

贝叶斯原理其实是用来求“逆向概率”的。所谓“逆向概率”是相对“正向概率”而言。就是从结果推出条件。贝叶斯原理建立在主观判断的基础上:在我们不了解所有客观事实的情况下,同样可以先估计一个值,然后根据实际结果不断进行修正。

贝叶斯公式

image
实际上,贝叶斯公式就是求阶后验概率的。

朴素贝叶斯

它是一种简单但极为强大的预测建模算法。之所以称为朴素贝叶斯,是因为它假设每个输入变量是独立的。这是一个强硬的假设,实际情况并不一定,但是这项技术对于绝大部分的复杂问题仍然非常有效。

输入变量就是特征,朴素贝叶斯假设这些特征之间是没有关系的,是独立事件。因此算特征概率的时候可以分开算然后相乘。

朴素贝叶斯模型由两种类型的概率组成:
  • 每个类别的概率P(Cj);
  • 每个属性的条件概率P(Ai|Cj)。

类别概率和条件概率的区别:

类别概率是输出变量之间的概率,与特征没有关系。但条件概率是基于特征的变量的概率。

为了训练朴素贝叶斯模型,我们需要先给出训练数据,以及这些数据对应的分类。那么上面这两个概率,也就是类别概率和条件概率。他们都可以从给出的训练数据中计算出来。一旦计算出来,概率模型就可以使用贝叶斯原理对新数据进行预测。

贝叶斯原理、贝叶斯分类器、朴素贝叶斯的区别

贝叶斯原理是最大的概念,它解决了概率论中“逆向概率”的问题,在这个理论基础上,人们设计出了贝叶斯分类器,朴素贝叶斯分类是贝叶斯分类器中的一种,也是最简单,最常用的分类器。朴素贝叶斯之所以朴素是因为它假设属性是相互独立的,因此对实际情况有所约束,如果属性之间存在关联,分类准确率会降低。不过好在对于大部分情况下,朴素贝叶斯的分类效果都不错。

实际上,贝叶斯原理是数学基础,贝叶斯分类是一种模型,而朴素贝叶斯则是具体方法。

朴素贝叶斯分类的工作流程

朴素贝叶斯原理推导_第1张图片

  1. 输入和输出,输入训练的数据集,第i个样本的第j个特征,第j个特征可能取得第l个值:输出x的分类
  2. 计算出先验概率和条件概率,对于给定的实例,基于独立假设条件下计算联合概率P(X=x,Y=ck),根据最大化后验概率法则,确定x的类别。

先验概率:通过经验来判断事情发生的概率,比如说“贝叶死”的发病率是万分之一,就是先验概率。再比如南方的梅雨季是 6-7
月,就是通过往年的气候总结出来的经验,这个时候下雨的概率就比其他时间高出很多。

后验概率:后验概率就是发生结果之后,推测原因的概率。比如说某人查出来了患有“贝叶死”,那么患病的原因可能是 A、B 或
C。患有“贝叶死”是因为原因 A 的概率就是后验概率。它是属于条件概率的一种。

条件概率:事件 A 在另外一个事件 B 已经发生条件下的发生概率,表示为 P(A|B),读作“在 B 发生的条件下 A
发生的概率”。比如原因 A 的条件下,患有“贝叶死”的概率,就是条件概率。

image
那么我们通过输入的特征和目标变量就可以求出先验概率和条件概率。通过条件独立性假设和最大似然估计(后验概率最大化)来得出最后的分类。

后验概率最大化的含义

我们这里假设为0-1损失函数,为了使损失函数最小相当于后验概率最大化。

参考:
https://mp.weixin.qq.com/s/IXpv5QSoHM8Bx4ZQgYbm3g
https://www.bilibili.com/video/BV1aE411o7qd?t=867&p=21

你可能感兴趣的:(算法,python,机器学习)