朴素贝叶斯

基于概率论的分类方法:朴素贝叶斯

背景

贝叶斯理论和贝叶斯概率以托马斯·贝叶斯(1702-1761)命名,他证明了现在称为贝叶斯定理的一个特例。术语贝叶斯却是在1950年左右开始使用,很难说贝叶斯本人是否会支持这个以他命名的概率非常广义的解释。拉普拉斯证明了贝叶斯定理的一个更普遍的版本,并将之用于解决天体力学、医学统计中的问题,在有些情况下,甚至用于法理学。但是拉普拉斯并不认为该定理对于概率论很重要。他还是坚持使用了概率的经典解释。

弗兰克·普伦普顿·拉姆齐在《数学基础》(1931年)中首次建议将主观置信度作为概率的一种解释。Ramsey视这种解释为概率的频率解释的一个补充,而频率解释在当时更为广泛接受。统计学家Bruno de Finetti于1937年采纳了Ramsey的观点,将之作为概率的频率解释的一种可能的代替。L. J. Savage在《统计学基础》(1954年)中拓展了这个思想。

有人试图将“置信度”的直观概念进行形式化的定义和应用。最普通的应用是基于打赌:置信度反映在行为主体愿意在命题上下注的意愿上。

当信任有程度的时候,概率计算的定理测量信任的理性程度,就像一阶逻辑的定理测量信任的理性程度一样。很多人将置信度视为经典的真值(真或假)的一种扩展。

Harold Jeffreys, Richard T. Cox, Edwin Jaynes和I. J. Good研探了贝叶斯理论。其他著名贝叶斯理论的支持者包括John Maynard Keynes和B.O. Koopman。

贝叶斯公式

朴素贝叶斯_第1张图片

A∩B 记作 AB

P(A|B) = P(AB) / P(B)
P(AB) = P(A|B)P(B)
同理
P(AB) = P(B|A)P(A)
所以
P(A|B) = P(B|A)P(A) / P(B) = P(A) * (P(B|A) / P(B))

我们称
P(A)为边缘概率也叫先验概率,先验是因为不考虑B的A的概率,A的概率通过我们已有的经验来求得
P(B)为边缘概率也叫先验概率,先验是因为不考虑B的B的概率,B的概率通过我们已有的经验来求得
P(A|B)为后验概率,已知道B的发生的情况下A发生的概率
P(B|A)为后验概率,已知道A的发生的情况下B发生的概率

为了解决什么问题

贝叶斯公式可以用来帮助求逆概,如果直接求P(A|B)很难,那么可以通过先求P(B|A)来求取P(A|B)。这也符合我们的思维习惯,生活中我们的观察也是具有局限性的,我们希望通过容易观察的事件来推测另一个事件发生的概率。

抽球例子

比如说有两个箱子C1和C2,我们容易的通过观察每个箱子的抽球情况来得到从大致判断每个箱子的球的比例。可是如果我们知道了手中抽到的球的颜色,现在想要知道抽取的球来自某个箱子的概率。

问题定义

  • 通过平时的抽球可以大致判断从C1箱子会抽到两种球,P(红|C1) = 0.3 ,P(绿|C1) = 0.7
  • 通过平时的抽球可以大致判断从C1箱子会抽到两种球,P(红|C1) = 0.5 ,P(绿|C1) = 0.5
  • 平时从两个箱子取球的概率是相等的,P(C1) = 0.5 , p(C2) = 0.5
  • 我们也可以轻易得到抽到红球的概率为 P(红) = P(红|C1) * P(C1) + P(红|C2) * P(C2)= 0.4,同理可得 P(绿) = 0.6
  • 现在想要知道的是 P(C1|红)的概率

贝叶斯公式可以容易满足我们的要求,P(C1|红) = P(红|C1)P(C1) / P(红),等号右边是我们通过观察可以比较容易估计的。

全概率事件

C = C1 U C2
P(C) = P(C1) + P(C2)
**P(C|A) = P(C1 U C2 | A) = P(C2 | A) + P(C1 | A)
**

独立事件

朴素贝叶斯_第2张图片

其中表示AB同时发生的概率
P(A) = P(A|B)
P(B) = P(B|A)
P(AB) = P(A|B)*P(B) = P(A)P(B)

朴素贝叶斯_第3张图片

用这个公式表示上图的阴影部分的面积
P(AB) = P(A|B)P(B)

这是两个块面积的交集,有时候我们面对的数据特征会比较多,例如几千个。
P(ABCD…) = p(A)P(B|A)P(C|AB)P(D|ABC)…
在应用中,如果解决上面的问题往往会花费很多的时间,我们就会尝试去简化上面的公式。我们将每个事件看做是独立的事件,那么公式就简化为:
P(ABCD…) = P(A)P(B)P(C)P(D)…

可能心理可能会想,忽略了这些关联性质,那么会不会影响实验的结果呢?这个就需要通过实践来评估结果的好坏了,牺牲一定的精度来换取时间。

朴素贝叶斯公式

先来看看贝叶斯公式吧:
P(A|B) = P(A) * (P(B|A) / P(B))

假设B是两个事件B1 和 B2, P(B|A)表示在A发生的情况下,B1和B2同时发生的概率。
P(A|B) = P(A) * (P(B1B2|A) / P(B1B2))

如果是很多个事件同时出现呢
P(A|B) = P(A) * (P(B1B2B3…|A) / P(B1B2B3…))
计算这个式子就复杂很多了,如果将B1B2B3..中事件都看做彼此独立的,那么简化公式为:
P(A|B) = P(A) * (P(B1B2B3…|A) / P(B1B2B3…))
= P(A) * (P(B1|A) * P(B2|A) * P(B3|A)…) / (P(B1) * P(B2) * P(B3)…)
如果将A看做是邮件的分类,将B看做是单词,那么上面的这个等式就可以看做是根据邮件的单词来判断邮件属于某个分类的概率了。简化后的公式是比较好求的,P(A)某个分类的概率,P(Bi|A)表示某分类下,单词Bi出现的概率。P(Bi)表示单词Bi在邮件中出现的概率。

简化后的公式将各个单词之间看做是相互独立的,我们知道单词之间还是存在一定关联,去掉他们之间的关系会不会对分类产生很大的影响,实践发现简化后的公式让分类在容许的时间上达到不错的分类效果。

概率估计

以后学习了在补充

贝叶斯理论和应用

数学领域▪ 贝叶斯分类算法 (应用:统计分析、测绘学)
贝叶斯公式 (应用:概率空间)
▪ 贝叶斯区间估计 (应用:数学中的区间估计)
▪ 贝叶斯序贯决策函数 (应用:统计决策论)
▪ 贝叶斯风险 (应用:统计决策论)
▪ 贝叶斯估计 (应用:参数估计)
▪ 贝叶斯统计 (应用:统计决策论)
▪ 经验贝叶斯方法 (应用:统计决策论)工程领域
▪ 贝叶斯定理 (应用:人工智能、心理学、遗传学)
▪ 贝叶斯分析 (应用:计算机科学)
▪ 贝叶斯逻辑 (应用:人工智能)
▪ 贝叶斯网络 (应用:人工智能)
▪ 贝叶斯分类器 (应用:模式识别、人工智能)
▪ 贝叶斯决策 (应用:人工智能)
▪ 贝叶斯推理 (应用:数量地理学、人工智能)
▪ 贝叶斯学习 (应用:模式识别)其他领域
▪ 贝叶斯主义 (应用:自然辩证法)
▪ 有信息的贝叶斯决策方法 (应用:生态系统生态学)

参考:
https://www.zybuluo.com/frank-shaw/note/128043
https://zh.wikipedia.org/wiki/%E8%B4%9D%E5%8F%B6%E6%96%AF%E6%A6%82%E7%8E%87
http://www.cnblogs.com/skyme/p/3564391.html

你可能感兴趣的:(机器学习-贝叶斯)