模式识别 | PRML概览

PRML全书概览

PRML全称Pattern Recognition and Machine Learning,个人认为这是机器学习领域中最好的书籍之一,全书的风格非常Bayesian,作者试图在贝叶斯框架下解释每一种机器学习模型。阅读起来有一定难度,不适合作为机器学习入门教材。然而这本书提供的贝叶斯视角有助于我们更为立体全面理解一些经典模型。

全书分为十四个章节,这里我尽可能简要概述每个章节的主要内容,如果今后有时间,还会考虑做一个全书知识的详细版讲义。

1 Introduction

这一章是全书的概览,主要是介绍了一些基本思想和背景知识,其中作者阐述了全书出发点的不同,奠定了其贝叶斯的基调。

  • 1.1利用Polynomial Curve Fitting的例子形象解释了欠拟合和过拟合
  • 1.2介绍概率论的基础知识,包括密度函数和分布函数、数字特征、高斯分布,从定义和贝叶斯解释两方面进行了阐述。
  • 1.3简单说明模型选择的原则
  • 1.4以高维空间球体类别阐述维数灾难产生的原因
  • 1.5由贝叶斯定理推到决策函数,并验证我们需要选择具有最大后验概率的类别。
  • 1.6简单介绍信息论,介绍KL散度(相对熵)和互信息(mutual information)

2 Probability Distributions

这一章中详细介绍了各种概率分布,是复习概率论的好内容,非常详细,也有助于加深对于数据的理解。

  • 2.1介绍伯努利分布、二项分布,并以beta分布为例介绍先验和后验。
  • 2.2介绍多项式变量,顺带引出狄利克雷分布。
  • 2.3介绍正态分布及其相关分布(如t-分布)。
  • 2.4介绍数理统计中的指数族,指出其最大似然、共轭先验等较为通用的形式。
  • 2.5简要介绍非参数方法,包括常见的核密度估计和最近邻方法。

3 Linear Models for Regression

从这一章开始正式进入模型的介绍,首先当然是最为基本的线性模型,包括其需要调节的参数、各种性质。这一章主要介绍了线性回归的思想。

  • 3.1介绍线性基函数模型,最大似然等价最小平方等。
  • 3.2介绍非常经典的偏置-方差分解,即目标函数与回归函数之差平方的期望可表示为bias(偏置)和variance(方差)的和。
  • 3.3用贝叶斯方法来看待了线性回归,包括非常直观的线性基函数的贝叶斯学习过程。
  • 3.4通过贝叶斯方法来比较模型,使用概率来表示模型的不确定性。
  • 3.5介绍Evidence Approximation,针对当对系数或超参数积分无法求得解析解的情况。
  • 3.6介绍了固定基函数的局限。

4 Linear Models for Classification

这一章讨论分类的线性模型,可以理解为决策面的选取。

  • 4.1介绍判别函数,由二分类推广到多分类,并介绍最小平方、Fisher判别和感知机三种方法及其关系。
  • 4.2介绍概率生成式模型的基本思想。
  • 4.3与前一章相对应,介绍概率判别式模型的基本思想。
  • 4.4中,为了找到一个高斯分布来近似更复杂的分布,引入拉普拉斯近似的方法。
  • 4.5展示了利用拉普拉斯近似处理bayes logistics regression的问题。

5 Neural Networks

这一章介绍传统神经网络相关内容,知识点非常基础。

  • 5.1介绍前馈神经网络,展示了与感知机的区别及权空间对称的特性。
  • 5.2就是神经网络训练的内容,包括参数优化、局部二次近似、梯度下降等。
  • 5.3简单总结了误差反向传播的内容,并提到可以用反向传播计算Jacobian矩阵。
  • 5.4讲了Hessian Matrix的计算。
  • 5.5详细介绍了神经网络中的正则化。
  • 5.6介绍混合密度网络,力图寻找处高斯分布外,对条件概率建模的更一般的框架。
  • 5.7介绍贝叶斯神经网络。

6 Kernel Methods

本章介绍核方法的基本思想,即输入向量只以标量形式出现时,可以用其他核积来替换标量积,在开始前也给出了核函数的定义以及一些常用的核函数。

  • 6.1介绍对偶表示,表明最小平方问题的解能完全通过核函数表示。
  • 6.2介绍了很多核函数的构造方法,并介绍检验核函数的原则。
  • 6.3以Nadaraya-Waston模型为例介绍径向量基函数网络。
  • 6.4详细介绍高斯过程这一经典统计模型。

7 Sparse Kernel Machines

当基于核的算法具有稀疏解时,对新数据的预测只依赖于在训练数据点的一个子集上计算的核函数。本章介绍SVM和RVM两种经典的算法。

  • 7.1详细介绍并推导了SVM,包括多分类SVM和回归SVM。
  • 7.2介绍回归RVM和分类RVM,这种方法基于贝叶斯思想,有后验概率的输出,解通常比SVM更稀疏。

8 Graphical Models

本章介绍了两类基本的概率图模型:包括有向图模型和无向图模型,并且介绍了利用因子图求解推断问题的基本思想。个人认为是本书相当有趣的一个章节,中心思想在于利用图描述联合概率分布中所有随机变量,并分解为一组因子乘积的方式,每个因子只依赖于随机变量的一个子集。

  • 8.1介绍贝叶斯网络的基本内容。
  • 8.2从图的结构展现了条件独立性的表示,并定义d-separation的概念。
  • 8.3介绍马尔科夫随机场,与贝叶斯网络不同,这是一种无向图模型。
  • 8.4介绍图推断,包括链推断、因子图、sum-product算法、max-product算法等。

9 Mixture Models and EM

本章引入混合概率分布和隐变量的概念,这是本章和后面几章的思想基础。本章介绍将离散潜在变量可以看做数据点分配到于混合概率分布的具体成分当中的思想,并介绍处理隐变量问题的基本模型。

  • 9.1介绍k-means模型,并且从这种最简单无监督模型开始推广。
  • 9.2介绍混合高斯模型,从高斯分量的线性相加过渡到利用离散潜变量描述概率分布的思想,并引入EM算法。
  • 9.3利用几个模型介绍EM算法重要思想:通过迭代的方式找到潜在变量的模型的MLE Solution。
  • 9.4从一般形式来讨论EM算法,并展示其局部下界逼近的本质特性。

10 Approximate Inference

从这里开始我们从精确推断过渡到近似推断,在前一章的基础上,本章介绍在隐空间维度过高或后验形式复杂,难以计算后验分布的期望的情况下可以使用的近似算法,包括确定性近似和随机近似。

  • 10.1引入变分推断,寻找一个函数来最大或最小化泛函。
  • 10.2以高斯的变分混合为例,展现了变分法的重要思想,许多贝叶斯模型都可以用类似的步骤来求解。
  • 10.3将变分法用于线性回归
  • 10.4重新提到指数族,指出共轭指数结构的特性并引出下一节的讨论。
  • 10.5介绍局部变分,通过寻找模型中的单独的随机变量或者变量组上定义的函数的界限,简化得到的后验分布。
  • 10.6介绍变分Logistics回归,并展示了EM和积分两种对于变分参数优化的方式。
  • 10.7介绍期望传播,目标也是KL散度最小化(但是形式相反),用这种方式得到近似的结果。

11 Sampling Methods

本章从确定性近似推断过渡到基于数值采样的随机近似(蒙特卡洛),由于一般我们需要用后验分布计算期望,因此在复杂的情况下通常使用抽样从概率分布中寻找某个函数的期望。

  • 11.1介绍基本采样方法,包括Rejection Sampling、Adaptive Rejection Sampling和Importance Sampling等。
  • 11.2介绍Markov Chain和MCMC算法。
  • 11.3介绍Gibbs Sampling,可以看做 Metropolis-Hasting算法的一个具体实现的情形。
  • 11.4介绍Slice Sampling,这种采样算法提供了一个可以自动调节步长,从而匹配分布特征的方法。

12 Continuous Latent Variables

本章介绍隐变量连续情形下的处理问题,也算是比较经典的一章。

  • 12.1介绍主成分分析的基本思想,并对比最大方差和最小误差形式的PCA。
  • 12.2将PCA视为概率潜在变量模型的最大似然解(又称概率PCA),并指出其余因子分析的关系。
  • 12.3核替换的方法应用到PCA中,从而得到了一个非线性的推广(Kernel PCA)。
  • 12.4介绍非线性隐变量模型,指出非线性性质和非高斯性质的关联性。介绍独立PCA和自关联网络等。

13 Sequential Data

本章离开了数据独立同分布的假设,讨论一种特殊的数据集——顺序数据集,包括时间序列等。
13.1介绍Markov模型,该模型要求不是严格独立同分布,而是只与最近的一个时间点数据有关。
13.2介绍HMM,这里隐变量被限制为离散型,而对观测变量没有要求。
13.3介绍线性动态系统,并推广到Kalman滤波和粒子滤波。

14 Combining Models

作为本书的最后一个章节,该章节介绍了组合模型,通过模型的叠加等方式增加预测的合理性,减少偶然性,包括非常广泛使用的树模型和boosting等。

  • 14.1简要介绍了Bayesian Model Averaging,并与Combining Methods作了区分。
  • 14.2介绍了bagging方法,并推导出组合后的期望误差不会超过单个模型的期望误差。
  • 14.3介绍了boosting方法,主要是经典的AdaBoost并讨论了其误差。
  • 14.4介绍基于决策树的模型,包括决策树的生成策略和决策树的剪枝策略两部分。
  • 14.5介绍了条件混合模型,主要推导了混合线性回归模型。
  • 14.6简要介绍logistic模型混合,此部分内容在先前的章节也讨论过。

你可能感兴趣的:(Machine,Learning)