之前章节已经讨论了频率派估计方法和基于估计单一值 θ \boldsymbol{\theta} θ 的方法,然后基于该估计作所有的预测。另一种方法是在做预测时会考虑所有可能的 θ \boldsymbol{\theta} θ。后者属于贝叶斯统计的范畴。
频率派的视角是真实参数 θ \boldsymbol{\theta} θ 是未知的定值,而贝叶斯统计则用概率反映知识状态的确定性程度。在观察到数据前,将 θ \boldsymbol{\theta} θ 的已知知识表示成先验概率分布, p ( θ ) p(\boldsymbol{\theta}) p(θ)。许多先验偏好更简单的解。
现有数据样本 { x ( 1 ) , . . . , x ( m ) } \{x^{(1)},...,x^{(m)}\} {x(1),...,x(m)},通过贝叶斯规则结合数据似然 p ( x ( 1 ) , . . . , x ( m ) ∣ θ ) p(x^{(1)},...,x^{(m)}|\boldsymbol{\theta}) p(x(1),...,x(m)∣θ) 和先验,我们可以恢复出数据对我们关于 θ \boldsymbol{\theta} θ 信念的影响:
p ( θ ∣ x ( 1 ) , . . . , x ( m ) ) = p ( x ( 1 ) , . . . , x ( m ) ∣ θ ) p ( θ ) p ( x ( 1 ) , . . . , x ( m ) ) p(\boldsymbol{\theta}|x^{(1)},...,x^{(m)})=\frac{p(x^{(1)},...,x^{(m)}|\boldsymbol{\theta})p(\boldsymbol{\theta})}{p(x^{(1)},...,x^{(m)})} p(θ∣x(1),...,x(m))=p(x(1),...,x(m))p(x(1),...,x(m)∣θ)p(θ)
在贝叶斯估计常用的情景下,先验开始是相对均匀的分布或高熵的高斯分布,观测数据通常会使后验的熵下降,并集中在参数的几个可能性很高的值。
相对于最大似然估计,贝叶斯估计有两个重要区别。第一,不像最大似然方法预测时使用 θ \boldsymbol{\theta} θ 的点估计,贝叶斯方法使用 θ \boldsymbol{\theta} θ 的全分布。例如,在观测到 m m m 个样本之后,下一个数据样本的预测分布如下:
p ( x ( m + 1 ) ∣ x ( 1 ) , … , x ( m ) ) = ∫ p ( x ( m + 1 ) ∣ θ ) p ( θ ∣ x ( 1 ) , … , x ( m ) ) d θ p\left(x^{(m+1)} \mid x^{(1)}, \ldots, x^{(m)}\right)=\int p\left(x^{(m+1)} \mid \boldsymbol{\theta}\right) p\left(\boldsymbol{\theta} \mid x^{(1)}, \ldots, x^{(m)}\right) d \boldsymbol{\theta} p(x(m+1)∣x(1),…,x(m))=∫p(x(m+1)∣θ)p(θ∣x(1),…,x(m))dθ
贝叶斯方法和最大似然方法的第二个最大区别是由贝叶斯先验分布造成的。先验能够影响概率质量密度朝参数空间中偏好先验的区域偏移。当训练数据很有限时,贝叶斯方法通常泛化得更好,但是当训练样本数目很大时,通常会有很大的计算代价。
原则上我们应该使用参数 θ \boldsymbol{\theta} θ 的完整贝叶斯后验分布进行预测,但单点估计常常也是需要的。点估计为计算棘手的贝叶斯后验提供了一个可行的近似解,而且我们仍然可以让先验影响点估计的选择来利用贝叶斯方法的优点。一种实现方法就是最大后验(Maximum A Posterior)点估计。MAP 估计选择后验概率最大的点:
θ M A P = arg max θ p ( θ ∣ x ) = arg max θ log p ( x ∣ θ ) + log p ( θ ) \boldsymbol{\theta}_{\mathrm{MAP}}=\underset{\boldsymbol{\theta}}{\arg \max } p(\boldsymbol{\theta} \mid \boldsymbol{x})=\underset{\boldsymbol{\theta}}{\arg \max } \log p(\boldsymbol{x} \mid \boldsymbol{\theta})+\log p(\boldsymbol{\theta}) θMAP=θargmaxp(θ∣x)=θargmaxlogp(x∣θ)+logp(θ)
正如全贝叶斯推断,MAP 贝叶斯推断的优势是能够利用来自先验的信息,这些信息无法从训练数据中获得。该附加信息有助于减少最大后验点估计的方差,但代价是增加了偏差。
I. J. Goodfellow, Y. Bengio, and A. Courville, Deep Learning. Cambridge, MA, USA: MIT Press, 2016, http://www.deeplearningbook.org.