"模式识别与机器学习"读书笔记——2.3 The Gaussian Distribution

高斯分布,又叫做正态分布,应用范围很广。比如令单一变量取值分布能够具有最大熵就要用高斯分布;一堆随机数求和,得到的和的分布也满足高斯分布(根据拉普拉斯的中心极限定理)。这第2.3章就要介绍其一些重要性质,对后续章节很有帮助。

2.3的每一小节的内容都不少,所以我拆开写了。另外这章涉及不少数学证明,不是很好写,具体写不写再说了。

单变量的高斯分布形式:

当变量x是个D维向量时,高斯分布形式:

是D*D的协方差矩阵。

经过一系列证明得到那个“显然的结论”:

证明过程中用到不少矩阵的基础知识,用矩阵来表述多变量确实方便。
既然是证明就是逐层深入的,后面的证明要活用前面的应用。

高斯分布也是个分布,它的参数都是人为给定的,也是一种典型的参数控制的分布。

高斯分布中u会有D个参数,有D(D+1)/2个参数,因为其是对称矩阵,所以高斯分布一共有D(D+3)/2个参数。

当D增长时,高斯分布的参数数会以二次方的速度迅速增长,会变得很大,而对大矩阵的操作代价是很高的,所以要想办法减少参数。

明显的参数减少办法有,限制,让其为对角阵,则总参数减少为2D,令其为单位矩阵则总参数减少为D+1,不过这么做的缺点就是对某些类数据的描述不会很理想。此外高斯分布还有个天生的弱点就是它只有一个峰值,对于有多个峰值分布的数据其模拟效果必不会好。

在后面章节会引入潜变量(latent variables),可以解决参数数量与匹配精度的矛盾。

你可能感兴趣的:(机器学习)