机器学习实战笔记4(朴素贝叶斯)

前面介绍的kNN和决策树都给出了“该数据实例属于哪一类”这类问题的明确答案,而有时候的分类并不能给出明确的答案,本节讲解使用概率论进行分类的方法。

1:简单概念描述

概念比较简单,这里我摘抄自百度百科,很容易理解。

朴素贝叶斯模型(NaiveBayesian classification))

—-

Vmap=arg max P( Vj | a1,a2…an)

Vj属于V集合

其中Vmap是给定一个example,得到的最可能的目标值.

其中a1…an是这个example里面的属性.

这里面,Vmap目标值,就是后面计算得出的概率最大的一个.所以用max来表示

—-

贝叶斯公式应用到 P(Vj | a1,a2…an).

可得到Vmap= arg max P(a1,a2…an | Vj ) P( Vj ) / P (a1,a2…an)

又因为朴素贝叶斯分类器默认a1…an他们互相独立的.

所以P(a1,a2…an)对于结果没有用处. [因为所有的概率都要除同一个东西之后再比较大小,最后结果也似乎影响不大]

可得到Vmap=arg max P(a1,a2…an | Vj ) P( Vj )

然后

朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立。换言之。该假定说明给定实例的目标值情况下。观察到联合的a1,a2…an的概率正好是对每个单独属性的概率乘积: P(a1,a2…an | Vj ) =Πi P( ai| Vj )

….

朴素贝叶斯分类器:Vnb=arg max P( Vj ) Π i P ( ai | Vj )

其中a1,a2…an为特征值,Vj为分类的结果。这也体现了贝叶斯决策理论的核心思想,即选择具有最高概率的决策。它是文档分类的常用算法。

 欢迎转载或分享,但请务必声明文章出处。 (新浪微博:小村长zack, 欢迎交流!)

你可能感兴趣的:(机器学习,朴素贝叶斯,机器学习)