朴素贝叶斯的概念简介

机器学习简介——朴素贝叶斯

朴素贝叶斯

朴素贝叶斯(Naive Bayes,NB):是一种基于概率理论的分类算法,以贝叶斯理论为理论基础,通过计算样本归属于不同类别的概率来进行分类,是一种经典的分类算法。

贝叶斯理论:基于能获得的最好证据(观察、数据和信息等),来计算型信念度(或者假说、主张、命题)的有效方法。信念度即为对事物的真实性和正确性所具有的信心。

朴素:单纯的、粗糙的,简单粗暴的假设给定目标值是属性之间相互条件独立的

朴素贝叶斯的模型

有m个样本,每个样本有n个特征,输出为k个类别,通过样本学习得到先验概率(对于每个分类来讲有多少条记录),通过样本学习得到条件概率(在某一个分类里,存在样本x的概率是多少),通过上述学习结果,可以计算X、Y的联合概率分布

拉普拉斯平滑

拉普拉斯平滑:分类过程中,有时会碰到零概率问题,即某个带预测样本中的某个属性取值在样本中没有出现过,会导致整个概率的计算结果为0。拉普拉斯平滑通过在分子、分母上加上调整可以很好的解决这类问题。

朴素贝叶斯算法的优缺点

NB优点:

  • 有统计学基础背书 ,分类效率稳定
  • 支持多分类任务
  • 对缺失数据不敏感
  • 算法简单,模型容易解释
  • 计算量小,支持海量数据
  • 支持增量式计算,可用作在线预测

NB缺点:

  • 需要有先验概率,不同值对结果有影响
  • 分类决策存在错误率
  • 对输入数据表达形式敏感
  • ”朴素“的假设对结果影响大

你可能感兴趣的:(机器学习,算法,机器学习)