可视化与多维数据分析

可视化数据是把 数据转换成视觉或表格的形式,以便可以分析数据和数据项或属性之间的关系与特性。

可视化基本步骤:

1.表示

2.安排

3.选择


可视化技术:1.直方图、多维直方图 2.盒状图(通常显示数据内部的变化)

3.散布图矩阵。下面转载一篇关于介绍散布矩阵的博文如下(地址http://blog.csdn.net/breeze5428/article/details/25612763):

因为最近需要用到散布矩阵做数据分析,因此在此做些关于散布矩阵的小总结。在多变量概率统计中,散布矩阵是用来估计多维正态分布协方差的统计量。

定义

给定n个维的样本,用矩阵的矩阵表示以上数据,其中。于是可得样本的均值为

其中 是矩阵 的第.

散布矩阵为的半正定矩阵


 其中表示矩阵的转置。散布矩阵可以简要的表示为


在此,定义为centering matrix,具体定义为

应用

在最大似然估计中, 给定n个样本,一个多元正太分布的协方差可以表示为归一化的散度矩阵:

若中的样本从多元正态分布中独立抽取,则   服从Wishart分布.


与协方差的关系

以上仅是从维基百科上翻译过来的内容,不难发现散布矩阵和协方差矩阵的关系。散布矩阵前乘以系数1/n就可以得到协方差矩阵。如果熟悉PCA,我们就会发现可以利用散度矩阵做PCA。


4.等高线图:适用于连续属性是且空间网格测量时。

5.平行坐标:用来绘制高维数据的属性值,采用同一平行轴与垂直轴


OLAP操作:

切片,切块,向上浏览,向下浏览


你可能感兴趣的:(可视化与多维数据分析)