《深入浅出数据分析》-贝叶斯概率和主观概率

接part1部分的内容,继续归纳整理:

六.贝叶斯概率

1.知识点:贝叶斯定理:
--概念解释:是关于随机事件A和B的条件概率(条件概率是以一件事情发生的前提另一件事情发生的概率)。如求解P(A|B),即在条件B的情况下,事件A发生的概率
--应用理解:贝叶斯定理在实际的生活案例中运用也算比较广泛,贝叶斯定理通常是求解逆向概率,即基于现有的已知条件,预测某事件的概率。如:天气预报说明天降雨的概率是60%,那么我们可以利用贝叶斯定理来预测明天下雨的概率。
--公式定理:
贝叶斯公式1:

解释说明:
P(A|B):在条件B的情况下,事件A发生的概率
P(A):事件A发生的概率。在实际的生活中,在某些情况下P(A)的概率无法获取,可能会主观预测P(A)的概率。
P(B):事件B发生的概率
P(-A):在事件-A发生的概率
P(B |A):在条件A的情况下,事件B发生的概率
P(B |-A):在条件-A的情况下,事件B发生的概率

贝叶斯公式2:

贝叶斯公式2是根据全概率和条件概率的理论推导出来的,具体如下:
1.条件概率描述的是事件 A 在另一个事件 B 已经发生条件下的概率,记做P(A|B),A 和 B 可能是相互独立的两个事件,也可能不是。(如果A、B是两个独立事件,运用公式推导证明了如果 A 和 B 是相互独立的事件,那么事件 A 发生的概率与 B 无关。,如下图)

条件概率

2.全概率公式如下图所示,指的是当两个事件为互补关系(非此即彼)时,P(B)+P(-B)=1时,可以应用下方公式:

条件概率和全概率公式可以通过韦恩图形象地表示出来:
韦恩图

2.应用案例一:根据检测结果阳性,预测得甲流感的概率
--已知条件:根据书中案例得出以下条件:某人患有甲流感,试验结果为阳性的概率为90%;某人未患有甲流感,试验结果为阳性的概率为9%,研究表明总人口中患有甲流的有1%
--定义事件:A表示患甲流,B表示甲流检测结果为阳性,-A表示未患甲流,-B表示甲流检测结果为阴性
--已知概率:
P(A)=1%,检测者患病的概率
P(-A)=99%,检测者未患病的概率
P(B|A)=90%,已知患病情况下,检测结果为阳性的概率
P(B|-A)=9%,已知未患病情况下,检测结果为阳性的概率
--计算P(A|B),检测结果为阳性患病的概率:

根据计算结果,我们得出检测结果为阳性,某人患甲流的概率为9%,患病概率不高

3.应用案例二:如果检测结果为阳性,第二次检测结果仍为阳性,此时得甲流感的概率
--已知条件:某人患甲流和未患甲流测试结果为阳性的概率都未发生变化
--定义事件:A表示患甲流,B表示甲流检测结果为阳性,-A表示未患甲流,-B表示甲流检测结果为阴性

因案例一得出:检测结果为阳性,患甲流的概率约为9%,所以在本例中患病P(A)的概率应为9%,基础概率此时发生变化了。

--已知概率:
P(A)=9%,检测者患病的概率
P(-A)=91%,检测者未患病的概率
P(B|A)=90%,已知患病情况下,检测结果为阳性的概率
P(B|-A)=9%,已知未患病情况下,检测结果为阳性的概率
--计算P(A|B),检测结果为阳性患病的概率:

根据计算结果,我们得出第二次检测结果仍为阳性,某人患甲流的概率为52%,患病概率明显提升了

4.应用练习:用贝叶斯来预测明天实际下雨的概率
--假设地区每天下雨的概率是0.8,天气预报准确性为0.8,天气预报说明天会下雨。求明天下雨概率?
定义事件:A表示明天是下雨天气,B表示天气预报准确性
P(A)=0.8,表示明天下雨的概率
P(-A)=0.2,表示明天未下雨的概率
P(B|A)=0.8,表示下雨时准确预报下雨的概率
P(B|-A)=0.8,表示没下雨时预报下雨的概率
利用贝叶斯计算出:P(A|B)=0.941

-在实际生活中,贝叶斯可以基于某些事情来预测另外一件事发生的概率,这个在数据分析中依据某些用户的行为来预测她的想法,比如女神对你笑,猜测她喜欢你等。在实际的生活中应用贝叶斯,有时候可以把P(A)当成主观判断,P(B|A)/P(B),当成是客观证据,从而用在生活中预测事情

七.主观概率

1.知识点:抽象的主观态度如何转化为具体的数据指标
--方法:将语言中描述概率的词汇,如“可能”,“很可能”,“应该可能”等文字转换为数学符号,如“50%”,“80%”等。
--主观概率:用一个数字形式的概率来表示自己对某事的确认程度。主观概率是根据规律进行分析的巧妙方法,尤其在预测孤立事件却缺乏从前相同条件下发生过的事件的可靠数据的情况。
--案例:如本书中背水投资公司经济分析师对“俄罗斯石油的政策”的投资意见

主观概率

2.知识点:标准差评估数据分布
--标准差:度量分析点与分析数据均值的差距。标准差越大,说明数据分布越不均匀。
--应用:如上图案例中,经济师对statement1的看法一致,分歧较小。
--计算方法:可以应用excel-STDEV来计算标准差,round来进行四舍五入的控制

3.知识点:贝叶斯在主观概率上的应用
--贝叶斯新应用:可以将新证据融合到主观概率中,计算出‘较为客观’的主观概率
--案例更新:背水公司收到“俄罗斯会出售所有油田,称其对商业失去信心”的新闻,针对这一新闻,再次来评估背水公司分析师对“俄罗斯石油政策”的看法
--事件定义:
S1:表示俄罗斯将继续支持石油业
~S1:表示俄罗斯将不支持石油业
E:表示新证据“俄罗斯宣布将会出售所有油田”的政策
P(S1):表示俄罗斯将继续支持石油业的概率
P(~S1):表示俄罗斯将不支持石油业的概率
P(E|S1):表示假设在俄罗斯将继续支持石油业条件下,背水公司经济师对新证据“俄罗斯宣布将会出售所有油田”的主观概率
P(E|~S1):表示假设在俄罗斯将不支持支持石油业条件下,背水公司经济师对新证据“俄罗斯宣布将会出售所有油田”的主观概率
--计算结果:在excel中运用【P(E|S1)P(S1)/(P(E|S1)P(S1)+P(E|S1)*P(S1))】计算P(S1|E)结果如下:

贝叶斯计算过程

--在散点图中可以看出,在新证据条件下,大部分经济师仍觉得俄罗斯将继续支持石油业
散点图

4.附录:书籍中的分析数据可在如下地址:下载地址

你可能感兴趣的:(《深入浅出数据分析》-贝叶斯概率和主观概率)