数据探索-汇总统计,可视化,联机分析处理(OLAP)

汇总统计-值集合的均值和标准差等

可视化-直方图和散布图等
OLAP-分析功能集中在从多维数据数组中创建汇总表的各种方法。包括在不同维上或不同属性值上聚集数据,如给定基于产品、位置和日期记录的销售信息,则可以使用OLAP技术创建按月和按产品类别描述特定地点的销售活动汇总。

百分位数(percentile)

针对有序数据,考虑值集的百分位数更有意义。具体的说,给定一个有序的或连续的属性x和0与100之间的数p,第p个百分位数Xp是一个X值,使得X的p%观测值小于Xp。

从1到10的整数百分位数X0%,X10%,...,X90%,X100%依次为1.0,1.5,2.5,3.5,4.5,5.5,6.5,7.5,8.5,9.5,10.0。按照惯例,min(x)=X0%,而max(x)=X100%。

位置度量:均值和中位数

对于连续数据,最广泛使用的是均值和中位数,他们是值集位置的度量。

为了克服传统均值定义的问题,又是使用截断均值的概念。指定0和100之间的百分位数p,丢弃高端和低端(p/2)%的数据,然后用常规方法计算均值,所得的结果即是截断均值,而标准均值是对应于p=0%的截断均值。

散布度量:极差和方差

绝对平均偏差(AAD)、中位数绝对偏差(MAD)、四分位数极差(IQR)

对于多元数据,每个属性的散布可以独立于其他属性。对于具有连续变量的数据,数据的散布更多的用协方差矩阵(covariance matrix)S表示,其中,S的第ij个元素sij是数据的第i个和第j个属性的协方差。这样,如果xi和xj分别是i个和第j个属性,则

sij=covariance(xi,xj)

xki和xkj分别是第k个对象的第i个和第j个属性的值。

可视化

快速吸取大量可视化信息,并发现其中模式。

一般概念:

1.表示:将数据映射到图形元素

2.安排:项。正确选择对象和属性的可视化表示是基本的要求。

3.选择:删除或不突出某些对象和属性。

技术:

1.少量属性的可视化:

茎叶图

直方图:相对频率直方图、Pareto直方图、二维直方图

盒状图

饼图

百分位数图和经验累计分布函数(ECDF)

散布图、散布图矩阵

可视化事件空间数据:

等高线图

曲面图

矢量场图

低维切片

动画

可视化高维数据:

矩阵

平行坐标系

星形坐标和Chernoff脸

OLAP和多维数据分析

分析多维数据:

数据立方体:计算聚集量

维归约和转轴

切片和切块

上卷和下钻

你可能感兴趣的:(数据探索-汇总统计,可视化,联机分析处理(OLAP))