一。汇总统计
汇总统计是量化的,用单个数或数的小集合捕获可能很大的值集的各种特征。
1。频率和众数
是描绘无序的、分类的值的集合。给定一个在{v1,v2...,vi,...,vk}上取值的分类属性x和m个对象的集合,值vi的频率定义为:frequency(vi)=具有属性值vi的对象数/m。分类属性的众数(mode)是具有最高频率的值。
2。百分位数
对于有序数据,考虑值集的百分位数更有意义。给定一个有序的或连续的属性x和0与100之间的数p,第p个百分位数xp是一个x值,使得x的p%的观测值小于xp。
3。位置度量:均值和中位数
均值和中位数比较简单,也比较常用,但是均值对离群值比较敏感,为了克服这个问题,可以使用截断均值,指定0和100之间的百分位数p,丢弃高端和低端(p/2)%的数据,然后用常规的方法计算均值,所得的结果就是截断均值。
4。散布度量:极差和方差
这种度量表明属性值是否散布很宽,或者是否相对集中在单个点(如均值)附近。
给定一个属性x,它具有m个值{x1,x2,...,xm},x的极差定义为:range(x)=max(x)-min(x)。
尽管极差标识最大散布,但是如果大部分值都集中在一个较小的范围内,并且更极端的值的个数相对较少,则可能会引起误解。因此,作为散布的度量,方差和标准差更可取。
5。多元汇总统计
包含多个属性的数据(多元数据)的位置度量可以通过分别计算每个属性的均值或中位数得到。
对于多元数据,每个属性的散布可以独立于其它属性。然而对于具有连续变量的数据,数据的散布更多地用协方差矩阵S表示。其中,S的第ij个元素Sij是数据的第i个和第j个属性的协方差。
协方差的值接近于0表明两个变量不具有(线性)关系。对于数据探索,相关性比协方差更可取。相关矩阵R的第三ij个元素是数据的第i个和第j个属性之间的相关性。rij=correlation(xi,xj)=covariance(xi,xj)/sisj。其中si和sj分别是xi,xj的方差。
二。可视化
数据的可视化是指以图形或表格的形式显示信息。
1。可视化的动机
其它动机是人们能够快速吸取大量可视化信息,并发现其中的模式。
2。一般概念
*表示:将数据映射到图形元素
即将信息中的对象、属性、和联系映射成可视的对象、属性和联系,即转换成诸如点、线、形状和颜色等图形元素。
*安排
对于好的可视化来说,对象和属性的可视化表示的正确选择是基本的。在可视化显示中,项的安排也是至关重要的。
*选择
可视化另一个关键概念是选择,即删除或不突出某些对象或属性。
3。技术
*少量属性的可视化
茎中图
直方图
二维直方图
盒状图
饼图
散布图
扩展的二维和三维图:是指在二维或三维的基础上,使用颜色或阴影、大小、形状等,散布图可以显示多达三个附加信息,可以表达五个或六个维。
*可视化时间空间数据
等高线图
曲面图
矢量场图
低维切片
动画
4。可视化高维数据
矩阵:将数据矩阵的每个元素与图像中的一个像素关联,就可以把矩阵看作图像。
平行坐标系:与传统的坐标系不同,平行坐标系不同的坐标轴是平行的,而不是正交的。
星形坐标:对象的每个属性映射到图示符的一个特征,这样我们打一眼就可以看出两个对象的差异。
chernoff脸:每个属性与脸部的一个特征相关联。
三。OLAP和多维数据分析
1。用多维数据表示数据集
大部分数据集可以用表来表示,其中每一行是一个对象。
2。分析多维数据
*数据立方体:计算聚集量
*维归约和转轴
其中转轴是指在除两个维之外的所有维上的聚集。结果是一个二维交叉表,只有两个指定的维作为留下的维。
*切片和切块
切片是通过对一个或多个维指定特定的值,从整个多维数组中选择一组单元。切块通过指定属性值区间选择单元子集。
*上卷和下钻
例如:可以将一个每个的销售记录的数据集按月聚集(上卷)销售数据。也可以将月销售数据分解(下钻)成日销售总和。