《模式识别与机器学习》学习笔记:2.3 高斯分布

术语

术语 中文含义 备注
central limit theorem 中心极限理论 p78
Mahalanobis distance 马氏距离 #, p80
orthonormal 正交 p80
eigenvalue 特征值 p81
positive definite 正定的 p81
singular 非平凡的 p81
positive semidefinite 半正定的 p81
Jacobian matrix 雅克比矩阵 p81
moment 原点矩 p82
covariance 协方差 p83
diagonal 对角 p84
isotropic covariance   #, p84
unimodal 单峰 p84
latent(hidden,unobserved) varialbes   #, p84
hierarchical models   #, p84
Markov random field   #, p84
linear dynamical system   #, p84
precision matrix   p85
Schur complement   p87
sufficient statistic 充分统计量 p93
error signal   p95
Robbins-Monro algorithm   p95, 顺序模型中的参数估计算法
regression   p95
stationary point 驻点 p96
point estimate   p97
gamma distribution   p100
inverse gamma distribution   p101
normal-gamma (Gaussian-gamma)   p101
Student’s t-distribution   p103
degrees of freedom   p103
Cauchy distribution   p103
squared Mahalanobis distance   p105
Cartesian coordinates   p106
von Mises distribution (circular normal)   p108
concentration parameter   p108
zeroth-order Bessel function
of the first kind
  p108
responsibilities   p112
closed-form analytical solution   p113
expectation maximization   p113

注:#(不确定含义),*(重点)

2.3 The Gaussian Distribution

p79, We strongly encourage the reader to become proficient in manipulating Gaussian distributions using the techniques presented here as this will prove invaluable in understanding the more complex models presented in later chapters.

作者一再强调高斯分布的重要性,并指出搞懂高斯分布对后续内容的理解有不可估量的价值,所以作者用9个小节仔细讲解了高斯分布的方方面面。

 

p78, 多维高斯分布的密度函数(公式2.43)的归一化证明在公式2.57中

 

p78, The Gaussian distribution arises in many different contexts and can be motivated from a variety of different perspectives. Such as “maximizes the entropy” or “the sum of multiple random variables”.

高斯分布在很多不同的环境中都曾出现,而且从各种不同的角度看,它都有明确的含义。

 

p80 – p82, 作者先高斯分布的几何形状作为切入点来讲解高斯分布,即等密度椭圆曲线。

p82 – p83, 多维高斯分布均值和协方差矩阵的数学推导。

 

p83 - p84, 高斯分布的局限性和解决办法(*)

#, 其中有关Markov random field模型的说明尚未了解其含义。

2.2.1 Conditional Gaussian distributions

本小节主要讲解了条件高斯分布均值和协方差矩阵的数学推导过程。

 

p85, An important property of the multivariate Gaussian distributions is that if two sets of variables are jointly Gaussian, then the conditional distribution of one set conditioned on the other is again Gaussian. Similarly, the marginal distribution of either set is also Gaussian.

多维高斯分布的一个重要性质:如果两组变量的联合分布是高斯分布,则它们的条件分布和边际分布也都是高斯分布。(注:反之不行

 

p87, The mean of the conditional distribution, given by (2.81), is a linear function of xb and that the covariance , given by (2.82), is independent of xa. This represents an example of a linear-Gaussian model.

条件高斯分布的均值是xb的线性函数,而且协方差独立于xa,这是一个线性高斯模型的例子。

#:协方差似乎也独立于xb,在p90页最后一段的中提到了这个性质,进一步验证需查看资料 (p91, Roweis and Ghahramani, 1999)

2.3.2 Marginal Gaussian distributions

本小节主要讲解了边际高斯分布均值和协方差矩阵的数学推导过程,结构类似于上一节,最后总结了条件分布和边际分布的相关公式。

勘误:公式 (2.87) 的最后一行(第四行)中不应有 –1 这个求逆符号。

2.3.3 Bayes’ theorem for Gaussian variables

本小节主要讲解了由p(x)和p(y|x)推导p(x|y) 的过程。

 

p92, We can interpret the distribution p(x) as a prior distribution over x. If the variable y is observed, then the conditional distribution p(x|y) represents the corresponding posterior distribution over x.

将条件分布、边际分布同贝叶斯理论联系起来。

2.3.4 Maximum likelihood for the Gaussian

本小节讲解了如何用最大似然法求解高斯分布的参数。

 

p94, The maximization of (2.118) with respect to Σ is rather more involved. The simplest approach ……

求协方差矩阵的方法相对复杂,详情请看 Magnus and Neudecker (1999).

2.3.5 Sequential estimation

本小节主要讲解了顺序模型中参数估计的方法,先介绍了上节中均值的最大似然解在顺序估计中的应用,然后介绍了更一般化的方法,不过只讨论了单变量的情况,多变量的需查阅 (Blum, 1965).

 

p96, 需要理解并掌握约束条件的作用和含义。

2.3.6 Bayesian inference for the Gaussian

本小节使用贝叶斯推理方式进行参数估计,即加入了先验分布。先讨论了一维高斯分布中的参数估计情况,最后推广到多维。

 

p97 – p99, 方差已知,求均值

p99 – p101, 均值已知,求方差

p101, 均值,方差都未知

2.3.7 Student’s t-distribution

*:p103, From (2.158), we see that Student’s t-distribution is obtained by adding up an infinite number of Gaussian distributions having the same mean but different precisions. This can be interpreted as an infinite mixture of Gaussians.

t-分布是通过有限个均值相同,方差不同的高斯分布相加得来的。可以认为其是一个有限的混合高斯模型。

 

p103, t-分布与高斯分布的区别,及各自的优缺点:t-分布的鲁棒性更好。

 

p103, t-分布的最大似然解可以用EM算法。

 

p104, 孤立点(或噪声点)产生的两个原因。

 

*:p104, Robustness is also an important property for regression problems. Unsurprisingly, the least squares approach to regression does not exhibit roubustness, because it corresponds to maximum likelihood under a (conditional) Gaussion distribution.

鲁棒性对回归问题很重要,最小二乘法的的鲁棒性不高是由于其相当于(条件)高斯分布下的最大似然解。(参见章节1.1和1.2.5)

 

#: p105, mode[x] = μ

2.3.8 Periodic variables

本小节先举例说明高斯分布不适用于周期变量,再讲解如何将高斯分布周期化,最后介绍了其他的几类周期分布,并指出了周期分布的局限和改进方法。

2.3.9 Mixtures of Gaussians

大致介绍了混合高斯模型的概念、优点和解法。


-------------------------------------------
作者:兔纸张   来源:博客园 ( http://www.cnblogs.com/geiliCode )

你可能感兴趣的:(机器学习)