贝叶斯公式,垃圾邮件分类判断

是下面这个贝叶斯公式:

 

 

换个表达形式就会明朗很多,如下:

垃圾邮件关键词串联定律 表格法可视化贝叶斯定律

 

比如 如果出现 发票 这个词,那么此文件垃圾文件的概率为 90%。。

如果 出现 购买 这个词,垃圾文件概率为 80%

得到以下表格----------表格开始----------

词汇

垃圾邮件概率

正常邮件概率

发票

90%

10%

购买

80%

20%

购买发票

90*80=72%(舍弃掉此错误结构

10*20=2%

购买发票

1-2%=98%(根据正常邮件概率反向计算垃圾邮件概率

10*20=2%

 

--------表格结束=-------

表格解说。。几条规则

第一,如果只是出现发票一词,则垃圾邮件概率为90%,正常邮件概率自然为1-90%==10%

第2,如果只是出现购买一词,则垃圾邮件概率为80%,正常邮件概率自然为1-80%==20%

第三部,如果出现购买发票俩个次,则初步判断垃圾邮件概率为90%*80%=72%,正常邮件概率自然为10%*20%=2%

很明显,如果同时出现多个垃圾关键词。垃圾邮件的概率应该上升才对。。所以舍弃掉72%的错误计算结果。。

第四步。。那么得到正常邮件概率就是2%。。自然垃圾邮件概率就是1-2%==98%了。。。

  

你可能感兴趣的:(机器学习)