机器学习经典算法 - 朴素贝叶斯

朴素贝叶斯 Naive Bayes

朴素贝叶斯分类建立在 贝叶斯原理 的基础上,关于贝叶斯原理这一部分可以参考链接中给出的解释。

Bayes Theorem

朴素贝叶斯之所以如此得名是在于我们在概率计算中假设作为判断条件的多个事件之间彼此独立,即 P(A ∩ B) = P(B)P(A | B) = P(A)P(B | A) = P(A)P(B)。尽管这一假设在很多情况下对于事实过于简化,显得 Naive,幼稚,天真,但在实际应用中,其判断的效果实际上非常的好,因此得以广泛应用。

为了便于说明,在此以垃圾邮件分类任务为例,假定我们预先发现垃圾邮件中一般包含 easy 或包含 money 这两个单词,则有:

  • P(spam | 'easy', 'money')P('easy', 'money) = P('easy', 'money | spam)P(spam)

我们可以进一步将上式简化为:

  • P(spam | 'easy', 'money') ∝ P('easy', 'money | spam)P(spam)

再利用朴素贝叶斯原理有:

  • P(spam | 'easy', 'money') ∝ P('easy' | spam)P('money' | spam)P(spam)
Spam emai detector with Naive Bayes

在实际使用中对于正负例的计算结果相加并不总是等于 1,因此需要再进一步做归一化以确定二者的比例。

你可能感兴趣的:(机器学习经典算法 - 朴素贝叶斯)