data mining - 实用机器学习工具与技术 - 读书笔记( 二 )

Bayes, 贝叶斯理论是用来计算概率问题的。 在一个给定概率的事件发生的基础上,另一种事件发生的额概率是多少呢?

在 data mining 使用机器学习工具与技术这本书例举的基础算法中,谈到了 statistic modeling, 其中就是应用了 Naive Bayes 定律。 参考了 《 Discrete Mathematics and Its applications 》(中文: 《 离散数学及其应用 》)一书对 Bayes 定律的讲解,似乎 《 data mining 》讲的并不差, 简单明了。

以下是摘抄 《 Discrete 》 的原文:

We have two boxes. The first contains two green balls and seven red balls; the second contains four green balls and three red balls. Bob selects a ball by first choosing one of the two boxes at random. He then selects one of the balls in this box at random. If Bob has selected a red ball, what’s the probability that he selects a boll from the first box ?

大意就是: 有两个盒子, 第一个盒子有 2 个绿色的球和 7 个红色的球; 第二个盒子有 4 个绿色的球和 3 个红色的球。 Bob 随机的选择一个盒子来抽取其中一个球。请问他在第一个盒子中抽到红色球的概率是多少?这里问题的重点在于, Bob 首先抽到的是一个红色的球,要计算的是从第一个盒子中抽到这个红色球的概率?

思路:
- E 代表抽到红色球的概率; E¯ 代表是抽到绿色球的概率
- F 代表从第一个盒子抽球的概率; F¯ 代表是从第二个盒子抽球的概率

Bayes 计算公式:

P(F|E)=P(FE)P(E)

注释:这里 FE 代表的是 F 与 E 同时出现的交集, 它与 EF 是同意;

所以我们只要求出 P(EF) P(E) 就可以推导出 P(F|E)

P(E)=7912+3712=718+314=49126+27126=76126=3863

P(FE)=P(EF)=P(E|F)P(F)=7912=718

所以:

P(F|E)=7183863=49760.645

为了更好的理解这个公式,其实应该从源头入手,应该这个公式是从以下公式推到而来的:

P(EF)=P(E|F)P(F)

这个公式求解的问题是 : 抽到第一个盒子的概率 12 , 并且在第一个盒子里抽到红球的概率 79 , 由此得到抽到第一个盒子里红球的概率是 718

P(E|F) 是假定 F 事件已经发生, E 事件发生的概率; P(EF) 是不假设 F 事件已经发生,而是 E 与 F 两事件同时发生的概率。 P(E)=P(EF)+P(EF¯)

你可能感兴趣的:(技术,事件,Data)