多元正态分布

最广为使用的基于模型的聚类方法依赖于多元正态分布。多元正态分布是对p个变量X_1,X_2,...,X_p正态分布的一种推广。该分布使用一组均值\mu= \mu_1,\mu_2,...,\mu_p和协方差矩阵∑定义。协方差矩阵是变量间相关性的度量.

协方差矩阵∑由p个方差以及所有变量对的协方差σi,ji≠j)构成。矩阵的行和列均用变量表示,形式为:\sigma_1^2,\sigma_2^2,...,\sigma_p^2以及所有变量对的协方差\sigma_{i,j}i \neq j,构成。矩阵的行和列均用变量表示,形式为

多元正态分布_第1张图片

鉴于协方差矩阵是对称的,即\sigma_{i,j}=\sigma_{j ,i},因此矩阵中只有p( p-1)-p个协方差项,协方差矩阵共有p(p-1)个参数。多元正态分布表示为:

多元正态分布_第2张图片

 符号化表示表明所有的变量均符合正态分布,整体分布使用变量均值的向量和协方差矩阵描述。

图显示了具有两个变量X和Y的多元正态分布的概率轮廓线(例如,图中的0.5概率轮廓线包含了50%的分布)。

多元正态分布_第3张图片

该分布的均值是μx= 0.5和μy= -0.5,协方差矩阵为:

由于协方差\sigma_{xy}为正,所以X和Y是正相关的。

多元正态分布_第4张图片

 

你可能感兴趣的:(data,mining,python,开发语言)