贝叶斯用概率反映知识状态的确定性程度。数据集能够被直接观测到,因此不是随机的。另一方面,真实参数θ是未知或不确定的,因此可以表示成随机变量。在观察到数据前,我们将θ的已知知识表示成先验概率分布(prior probability distribution),p(θ)(有时简单地称为”先验”)。
相对于最大似然估计,贝叶斯估计有两个重要区别:(1)、不像最大似然方法预测时使用θ的点估计,贝叶斯方法使用θ的全分布。(2)、是由贝叶斯先验分布造成的。先验能够影响概率质量密度朝参数空间中偏好先验的区域偏移。实践中,先验通常表现为偏好更简单或更光滑的模型。对贝叶斯方法的批判认为先验是人为主观判断影响预测的来源。
当训练数据很有限时,贝叶斯方法通常泛化得更好,但是当训练样本数目很大时,通常会有很大的计算代价。
原则上,我们应该使用参数θ的完整贝叶斯后验分布进行预测,但单点估计常常也是需要的。希望使用点估计的一个常见原因是,对于大多数有意义的模型而言,大多数涉及到贝叶斯后验的计算是非常棘手的,点估计提供了一个可行的近似解。我们仍然可以让先验影响点估计的选择来利用贝叶斯方法的优点,而不是简单地回到最大似然估计。一种能够做到这一点的合理方式是选择最大后验(Maximum A Posteriori, MAP)点估计。MAP估计选择后验概率最大的点(或在θ是连续值的更常见情况下,概率密度最大的点)。
MAP贝叶斯推断的优势是能够利用来自先验的信息,这些信息无法从训练数据中获得。该附加信息有助于减少最大后验点估计的方差(相比于ML估计)。然而,这个优点的代价是增加了偏差。
许多正规化估计方法,例如权重衰减正则化的最大似然学习,可以被解释为贝叶斯推断的MAP近似。MAP贝叶斯推断提供了一个直观的方法来设计复杂但可解释的正则化项。例如,更复杂的惩罚项可以通过混合高斯分布作为先验得到,而不是一个单独的高斯分布。
贝叶斯定理(Bayes’ theorem)是概率论中的一个定理,它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解说中,贝叶斯定理能够告知我们如何利用新证据修改已有的看法。
通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A(发生)的条件下的概率是不一样的;然而,这两者是有确定的关系的,贝叶斯定理就是这种关系的陈述。贝叶斯公式的一个用途在于通过已知的三个概率函数推出第四个。
作为一个普遍的原理,贝叶斯定理对于所有概率的解释是有效的;然而,频率主义者和贝叶斯主义者对于在应用中,某个随机事件的概率该如何被赋值,有着不同的看法:频率主义者根据随机事件发生的频率,或者总体样本里面的发生的个数来赋值概率;贝叶斯主义者则根据未知的命题来赋值概率。这样的理念导致贝叶斯主义者有更多的机会使用贝叶斯定理。
贝叶斯定理是关于随机事件A和B的条件概率的一则定理:
其中P(A|B)是在B发生的情况下A发生的可能性。
在贝叶斯定理中,每个名词都有约定俗成的名称:
(1)、P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率;
(2)、P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率;
(3)、P(A)是A的先验概率(或边缘概率),之所以称为”先验”是因为它不考虑任何B方面的因素;
(4)、P(B)是B的先验概率或边缘概率。
按这些术语,贝叶斯定理可表述为:后验概率=(相似度 * 先验概率) / 标准化常量。也就是说,后验概率与先验概率和相似度的乘积成正比。另外,比例P(B|A)/P(B)也有时被称作标准相似度(standardized likelihood),贝叶斯定理可表述为:后验概率=标准相似度 * 先验概率。
贝叶斯概率(Bayesian probability)是由贝叶斯理论所提供的一种对概率的解释,它采用将概率定义为某人对一个命题信任的程度的概念。贝叶斯理论同时也建议贝叶斯定理可以用作根据新的信息导出或者更新现有的置信度的规则。
英国学者托马斯·贝叶斯在《论有关机遇问题的求解》中提出一种归纳推理的理论,后被一些统计学者发展为一种系统的统计推断方法,称为贝叶斯方法。采用这种方法作统计推断所得的全部结果,构成贝叶斯统计的内容。认为贝叶斯方法是唯一合理的统计推断方法的统计学者,组成数理统计学中的贝叶斯学派。
贝叶斯统计中的两个基本概念是先验分布和后验分布。
先验分布:它是总体分布参数θ的一个概率分布。贝叶斯学派的根本观点,是认为在关于θ的任何统计推断问题中,除了使用样本X所提供的信息外,还必须对θ规定一个先验分布,它是在进行推断时不可或缺的一个要素。贝叶斯学派把先验分布解释为在抽样前就有的关于θ的先验信息的概率表述,先验分布不必有客观的依据,它可以部分地或完全地基于主观信念。
后验分布:根据样本X的分布及θ的先验分布,用概率论中求条件概率分布的方法,可算出在已知X的条件下,θ的条件分布。因为这个分布是在抽样以后才得到的,故称为后验分布。贝叶斯学派认为:这个分布综合了样本X及θ先验分布所提供的有关的信息。抽样的全部目的,就在于完成由先验分布到后验分布的转换。
贝叶斯推断方法的关键在于所作出的任何推断都必须也只须根据后验分布,而不能再涉及X的样本分布。
贝叶斯学派与频率学派争论的焦点在于先验分布的问题。所谓频率学派是指坚持概率的频率解释的统计学家形成的学派。贝叶斯学派认为先验分布可以是主观的,它没有也不需要有频率解释。而频率学派则认为,只有在先验分布有一种不依赖主观的意义,且能根据适当的理论或以往的经验决定时,才允许在统计推断中使用先验分布,否则就会丧失客观性。
以上内容主要摘自: 《深度学习中文版》 和 维基百科
GitHub:https://github.com/fengbingchun/NN_Test