聚类算法简析(一):朴素贝叶斯算法

 

朴素贝叶斯算法常用于分类与预测的问题,比如给一个1000本书进行分类,可以分为文学类,管理类,技术类,教育类等等,即算法得到的结果是一组离散的代表类别的数据。比如,预测一株很美的植物,在不同的地理环境,如吉林,北京,广州,深圳,大理,不同的地点,在不同的日照和阳光强度下,这株植物会生存下来吗?是的这是个概率问题。

 

朴素贝叶斯的原理及理解

学习贝叶斯之前,我们了解下条件概率的概念

条件概率:事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”,看下下边的这张图:

 

聚类算法简析(一):朴素贝叶斯算法_第1张图片

根据文氏图,可以很清楚地看到在事件B发生的情况下,事件A发生的概率就是P(A∩B)除以P(B)。

   P(A|B)=P(A∩B)/P(B)

   因此,P(A∩B)=P(A|B)P(B)

   所以,P(A|B)P(B)=P(B|A)P(A)

   即:P(A|B)=P(B|A)P(A)/P(B)   — — — 公式(一)

 没错,公式(一):P(A|B)=P(B|A)P(A)/P(B) 就是贝叶斯定理

关于贝叶斯定理,一个简单的应用示例

  女孩子都喜欢买衣服,我也是个女孩子,一样也很喜欢,就举个买衣服的例子吧。

  下面有一组衣服的数据,我们来预测下,这位顾客可能更喜欢哪个类型的衣服

聚类算法简析(一):朴素贝叶斯算法_第2张图片

首先,先来计算下顾客购买与不购买的概率:

购买的衣服总数为6,衣服的总数为10,那么顾客购买衣服的概率为:

P(A1) = 6/10.0

不购买衣服的总数为4,衣服的总数为10,那么顾客不购买衣服的概率为:

P(A2) = 4/10.0 或 P(A2) = 1 - P(A1) = 1 - (6/10.0)

下面分别来计算下,在顾客购买的情况下,各类情况下的概率:

顾客购买,品牌为ONLY的条件概率:

购买的衣服中,为ONLY的个数为2,购买衣服的总数为6,衣服的总数为10,则品牌为ONLY顾客购买的条件概率为:

P(B1|A1) = 2 / 6.0

在总样本中,衣服为ONLY概率为:

P(B1) = 5 / 10.0

同理可以计算出:

品牌为森马,顾客购买的条件概率为:

P(B2|A1) = 4 / 6.0

在总样本中,衣服为森马的概率为:

P(B2) = 5 / 10.0

颜色为蓝色,顾客购买的条件概率为:

P(C1|A1) = 5 / 6.0

在总样本中,衣服为蓝色的概率为:

P(C1) = 5 / 10.0

顾客购买时,衣服为粉色的条件概率:

P(C2|A1) = 1 / 6.0

在总样本中,衣服为粉色的概率:

P(C2) = 5 / 10.0

顾客购买时,衣服的材质为纯棉的条件概率:

P(D1|A1) = 4 / 6.0

在总样本中,衣服为纯棉材质的概率:

P(D1) = 5 / 10.0

顾客购买时,衣服的材质为竹纤维的条件概率:

P(D2|A1) = 1 / 6.0

在总样本中,衣服为竹纤维材质的概率:

P(D2) = 5 / 10.0

现在应用贝叶斯定理,来做一个小小的预测:

顾客更喜欢购买下面哪一个产品:品牌为:ONLY、颜色为:蓝色、材质为:纯棉 与 品牌为:森马、颜色为:蓝色、材质为:竹纤维,哪一个产品?

我们计算下

P(A1|ONLY、蓝色、纯棉) 

= ((P(B1|A1)  * P(C1|A1) *  P(D1|A1) )*  P(A1) ) /( P(B1) *  P(C1) * P(D1) ) 

=[ ((2/6.0)* (5/6.0)* (4/6.0)) * (6/10.0)] / [(5 / 10.0) * (5 / 10.0) * (5 / 10.0)]

P(A1|森马、蓝色、竹纤维) 

=   ( P(B2|A1) * P(C1|A1) *  P(D2|A1))*  P(A1) ) /( P(B2) *  P(C1) * P(D2) )

 = [ ((4 / 6.0)* (5/6.0)* (1 / 6.0)) * (6/10.0)] / [(5 / 10.0) * (5 / 10.0) * (5 / 10.0)] 

我们来比较下两种商品购买的概率:

[ ((2/6.0)* (5/6.0)* (4/6.0)) * (6/10.0)] / [(5 / 10.0) * (5 / 10.0) * (5 / 10.0)]  

[ ((4 / 6.0)* (5/6.0)* (1/ 6.0)) * (6/10.0)] / [(5 / 10.0) * (5 / 10.0) * (5 / 10.0)] 

分母相同,分子偏大的结果更大,那么后者更大,所以我们推断,在纯棉蓝色ONLY家的连衣裙比竹纤维蓝色森马家的连衣裙更受顾客青睐,顾客购买前者的概率更大。细心的同学可能会发现,顾客不太喜欢竹纤维材质的连衣裙,因为影响分母结果的是这一项。

你可能感兴趣的:(算法)