贝叶斯方法及其应用(1)

  贝叶斯定理(英语:Bayes’ theorem)是概率论中的一个定理,它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解说中,贝叶斯定理(贝叶斯更新)能够告知我们如何利用新证据修改已有的看法。这个名称来自于托马斯•贝叶斯。
  通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯定理就是这种关系的陈述。贝叶斯公式的用途在于通过己知三个概率函数推出第四个。它的内容是:在B出现的前提下,A出现的概率等于A出现的前提下B出现的概率乘以A出现的概率再除以B出现的概率。通过联系A与B,计算从一个事件产生另一事件的概率,即从结果上溯原。
(https://zh.wikipedia.org/wiki/%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%AE%9A%E7%90%86)
  所谓的贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的。在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,如“假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大”。而一个自然而然的问题是反过来:“如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测”。这个问题,就是所谓的逆概问题。

  贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理。
  P(A│B)=P(A∩B)/P(B) =P(A)(P(B|A))/P(B)
  其中P(A|B)是在B发生的情况下A发生的可能性。
  在贝叶斯定理中,每个名词都有约定俗成的名称:
  P(A)是A的先验概率或边缘概率。之所以称为”先验”是因为它不考虑任何B方面的因素。
  P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。
  P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。
  P(B)是B先验概率或边缘概率,也作标准化常量(normalizing constant)。

  按这些术语,贝叶斯定理可表述为:
  后验概率 = (相似度*先验概率)/标准化常量
  也就是说,后验概率与先验概率和相似度的乘积成正比。
  另外,比例P(B|A)/P(B)也有时被称作标准相似度(standardised likelihood),贝叶斯定理可表述为:
  后验概率 = 标准相似度*先验概率

  这就是贝叶斯推断的含义。我们先预估一个”先验概率”,然后加入实验结果,看这个实验到底是增强还是削弱了”先验概率”,由此得到更接近事实的”后验概率”。
  简单地说,就是用已知事实对先验概率进行修正。
  在这里,如果”可能性函数”P(B|A)/P(B)>1,意味着”先验概率”被增强,事件A的发生的可能性变大;如果”可能性函数”=1,意味着B事件无助于判断事件A的可能性;如果”可能性函数”<1,意味着”先验概率”被削弱,事件A的可能性变小。

从条件概率推导贝叶斯定理
根据条件概率的定义。在事件B发生的条件下事件A发生的概率是:
  P(A│B)=P(A∩B)/P(B)
同样地,在事件A发生的条件下事件B发生的概率
  P(B│A)=P(A∩B)/P(A)
整理与合并这两个方程式,我们可以找到
  P(A|B) P(B) = P(A∩B) = P(B|A) P(A)
这个引理有时称作概率乘法规则。上式两边同除以P(A),若P(A)是非零的,我们可以得到贝叶斯 定理:
  P(B|A) = P(A|B) P(B)/P(A)
还可以写成:
  P(B|A) = P(A|B) P(B) / [P(A|B) P(B) + P(A|~B) P(~B) ]

来看一个例子:
  现分别有 A,B 两个容器,在容器 A 里分别有 7 个红球和 3 个白球,在容器 B 里有 1 个红球和 9 个白球,现已知从这两个容器里任意抽出了一个球,且是红球,问这个红球是来自容器 A 的概率是多少?
  假设已经抽出红球为事件 B,从容器 A 里抽出球为事件 A,则有:P(B) = 8 / 20,P(A) = 1 / 2,P(B | A) = 7 / 10,按照公式,则有:P(A|B)=(7 / 10)*(1 / 2)/(8/20)=0.875
  这里,P(A)为先验概率=0.5,后验概率P(A|B)= 0.875,也就是说,取出红球之后,事件A的可能性得到了增强。

  贝叶斯公式为利用搜集到的信息对原有判断进行修正提供了有效手段。在采样之前,经济主体对各种假设有一个判断(先验概率),关于先验概率的分布,通常可根据经济主体的经验判断确定(当无任何信息时,一般假设各先验概率相同),较复杂精确的可利用包括最大熵技术或边际分布密度以及相互信息原理等方法来确定先验概率分布。

你可能感兴趣的:(机器学习,贝叶斯,机器学习)