机器学习——朴素贝叶斯

机器学习——朴素贝叶斯

  • 朴素贝叶斯
  • 贝叶斯公式
  • 朴素贝叶斯的“朴素”怎么理解
  • 什么是拉普拉斯平滑法
  • 朴素贝叶斯的应用
  • 朴素贝叶斯对异常值敏不敏感
  • 先验概率与后验概率

优点:

  1. 算法逻辑简单,易于实现
  2. 分类过程中时空开销小,分类准确率高,速度快
  3. 朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率
  4. 对缺失数据不太敏感,算法也比较简单,常用于文本分类
  5. 对小规模的数据表现很好,能处理多分类任务,适合增量式训练
    缺点:
  • 理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好
  • 需要知道先验概率,且先验概率很多时候是基于假设或者已有的训练数据所得的,这在某些时候可能会因为假设先验概率的原因出现分类决策上的错误。

朴素贝叶斯

朴素贝叶斯是一个基于特征条件独立假设贝叶斯原理的一种分类算法。朴素贝叶斯通过训练数据得到X与y的联合分布;之后对于要预测的X,根据贝叶斯公式,输出后验概率最大的y。
朴素贝叶斯 是一种生成式 学习算法,其生成方法通过学习X,Y的联合分布来实现的。假设各个特征再给定y的情况下是相互独立的。

贝叶斯公式

P ( B ∣ A ) = P ( B ) P ( A ∣ B ) P ( A ) P(B \mid A)=\frac{P(B) P(A \mid B)}{P(A)} P(BA)=P(A)P(B)P(AB)
公式中,事件B的概率为P(B),事件B已发生条件下事件A的概率为P(A|B),事件A发生条件下事件B的概率为P(B|A)

朴素贝叶斯的“朴素”怎么理解

朴素贝叶斯中的朴素可以理解为是“简单,天真”的意思,因为“朴素”是假设了特征之间是同等重要,相互独立,互不影响的,但是在我们的现实社会中,属性之间并不都是互相独立的。

什么是拉普拉斯平滑法

拉普拉斯平滑法朴素贝叶斯中处理零概率问题的一种修正方式。在进行分类的时候,可能会出现某个属性在训练集中没有与某个类同时出现过的情况,如果直接基于朴素贝叶斯分类器的表达式进行计算的话就会出现零概率现象。为了避免其他属性所携带的信息被训练集中未出现过的属性值“抹去”,所以才使用拉普拉斯估计器进行修正。具体方法是:在分子上加1, 对于先验概率,在分母上加上训练集中可能的类别数;对于条件概率,则在分母上加上第i个属性可能的取值数

朴素贝叶斯的应用

朴素贝叶斯的应用最广的应该是文档分类,垃圾文本过滤,情感分析,推荐系统,拼写校正等。

朴素贝叶斯对异常值敏不敏感

朴素贝叶斯异常值不敏感。所以在进行数据处理时,我们可以不去除异常值,因为保留异常值可以保持朴素贝叶斯算法耳朵整体精度,而去除异常值则可能在进行预测的过程中由于失去部分异常值导致模型的泛化能力下降

先验概率与后验概率

先验概率:直接是某件事发生的概率
后验概率:已知某件事发生,导致这件事发生的概率

你可能感兴趣的:(深度学习,深度学习)