PRML-系列二

概率分布

  在第一章中,我们强调了模式识别中概率论所起的核心作用。我们现在转到概率分布及它们属性具体实例的探索。除了对他们自己的权利有极大兴趣外,这些分布可形成更复杂模型中的积木块,(其实就是通过一些组合可以用来处理更复杂的模型)这将在整本书中被广泛使用。本章介绍的分布也出于另一个重要的目的,即提供给我们讨论一些关键统计概念的机会,如贝叶斯推理,我们首先给出简单的例子,之后的章节中探讨更复杂的情况。
  本章中所讨论的一个角色是给定观察值的一组有限集x1,,,xn,给随机变量x的概率分布p(x)建模。这个问题被称为密度估计。出于本章的目的,我们将假定数据点是独立同分布。应该强调的是,密度估计问题根本上是不适定的,因为有无限多的概率分布可能产生观察的有限数据集。事实上,在每个数据点x1,,,xn上是非零的任何分布p(x)都是一个潜在的候选者。选择合适分布的问题涉及到模型选择的问题,这在多项式曲线拟合的情况下已经遇到过,并且这是模式识别的一个核心问题。
  我们首先考虑离散随机变量的二项和多项分布以及连续随机变量的高斯分布。有一些参数分布的具体实例,之所以叫参数分布是因为它们由少数的自适应参数支配,例如高斯例子中的均值和方差。为了应用这些模型到密度估计,我们需要根据观察到的数据集来确定合适参数值的过程。在频率论中,通过优化某些准则,如似然函数,我们选择特定的值。相反,在贝叶斯中,我们介绍参数上的先验分布,然后用贝叶斯定理来计算给定观察数据的相应后验分布。
  我们将看到,一个重要的角色是共轭先验,导致后验分布与先验分布有相同的函数形式,因此大大简化了贝叶斯分析。例如,多项分布参数的共轭先验被称为狄利克雷分布,而高斯分布均值的共轭先验是另一个高斯分布。这些分布都是指数分布家族的实例,其具有一些重要的性能,并且会详细的讨论。
  参数化方法的一个限制是,它假定了分布的一个特定函数形式,这可能不适合特定的应用。另一种方法是通过非参数密度估计方法给出的,其中,分布形式通常取决于数据集的大小。这种模式依然含有参数,但他们控制模型的复杂性而不是分布的形式。我们考虑三个非参数方法结束本章节,他们分别基于直方图,近邻和内核。

你可能感兴趣的:(PRML)