这个数据集包含150种鸢尾花信息,每50种取自三个鸢尾花种之一:Setosa、Versicolour、Virginica。
属性描述:
汇总统计指的是用单个数或数的小集合捕获很大的值集的各种特征
给定一个在 { v 1 , ⋯ , v i , ⋯ , v k } {\{v_1,\cdots,v_i,\cdots,v_k\}} {v1,⋯,vi,⋯,vk}上取值的分类属性 x x x和m个对象单位集合,值 v i v_i vi的频率定义为:
f r e n q u e n c y ( v i ) = 具 有 属 性 值 v i 的 对 象 数 m frenquency(v_i)=\frac{具有属性值v_i的对象数}{m} frenquency(vi)=m具有属性值vi的对象数
值得一提的是,如果使用唯一的值表示遗漏值,则该值常常表示为众数
对于有序数据,考虑百分位数(percentile)更有意义。具体的定义为:
给定一个有序的或连续的属性 x x x和0与100之间的数 p p p,第 p p p个百分位数 x p x_p xp是一个 x x x值,使得 x x x的 p % p\% p%的观测值小于 x p x_p xp.
均值和中值得知识不再赘述。为了克服传统均值定义的问题引入阶段均值的概念(trimmed mean):指定百分位数p,丢弃高端和低端的 ( p / 2 ) % (p/2)\% (p/2)%的数据,然后用常规方法计算均值。中位数是p=100%时的阶段均值。标准均值对应p=0%,阶段均值可以看做二者的中间状态
r a n g e ( x ) = m a x ( x ) − m i n ( x ) range(x)=max(x)-min(x) range(x)=max(x)−min(x)
v a r i a n c e ( x ) = s x 2 = 1 m − 1 ∑ i = 1 m ( x i − x ^ ) 2 variance(x)=s_x^2=\frac{1}{m-1}\sum _{i=1}^m(x_i-\hat{x})^2 variance(x)=sx2=m−11i=1∑m(xi−x^)2
这里面方差比极差更可取,但是对离群值仍旧很敏感。因此这里有三种更为稳健的度量。注:这里的分母是(1-m)
对于多元数据(包含多个属性的数据): x ˉ = ( x 1 ˉ . ⋯ , x n ˉ ) \bar{x}=(\bar{x_1}.\cdots,\bar{x_n}) xˉ=(x1ˉ.⋯,xnˉ)
每个属性的散布变化可能具有依赖关系。两个属性一起变化并依赖变量程度的大小,我们用协方差表示。
s i j = c o v e r a n c e ( x i , x j ) = 1 m − 1 ∑ k = 1 m ( x k i − x ˉ i ) ( x k j − x ˉ j ) s_{ij}=coverance(x_i,x_j)\\ \quad \qquad \qquad \qquad =\frac {1}{m-1}\sum_{k=1}^{m}(x_{ki}-\bar{x}_i)(x_{kj}-\bar{x}_j) sij=coverance(xi,xj)=m−11k=1∑m(xki−xˉi)(xkj−xˉj)
其中 x k j x_{kj} xkj表示第k个对象的第i个值。协方差矩阵我们用 S S S表示。
而相关矩阵 R R R比协方差矩阵更可取
r i j = s i j s i s j r_{ij}=\frac{s_{ij}}{s_i s_j} rij=sisjsij
对于对象:
单个分类 | 多个属性 |
---|---|
聚类并把类表示为表的项或屏幕的区域 | 将对象表示为表的行列或图的一条线 |
对于属性:
序数、区间、比率 | 分类 | 标称 |
---|---|---|
同样可以映射成有序、连续的图形特征 | 每个类可以映射到不同位置 | 用来表示序数值的图形元素通常有序,但标称值没有序 |
任意给定的数据集中,有许多蕴含的联系,因此可视化的主要难点是选择一种技术,让关注的联系易于观察。
对于好的可视化来说,正确选择对象和属性的可视化是基本的要求。在可视化现实中,项的安排也至关重要。**改变对象的排列顺序和属性的顺序可以让形势更加明朗。**除此之外还有别的安排形式。
没有很好的办法去对多个属性或多对象进行可视化分析,一方面,没有针对多个属性的多维度的表示方法,另一方面对象过多会导致拥挤。
应对办法是,处理多属性最常用的是使用属性子集,如果维度不太高,则可以构造双变量图矩阵。或者让可视化程序自动显示一系列二维图。这涉及到维归约技术。
当多个对象或者数据极差很大时,我们可以通过放大数据的特定区域或者选取数据点样本来解决问题。
茎叶图 可以用来观测一维整型或连续数据的分布。通过垂直绘制茎,水平绘制叶,可以提供数据分布的可视表示。
4:2334
5:001244445
6:22223349
7:223
直方图 茎叶图是一种特殊的直方图(histogram),将值域分箱,并计算落入各个箱内的对象个数,绘制图像。
直方图的一些变形:
盒状图 (box plot)显示一维属性值分布的方法
点击此处见详解
饼图 饼图使用相对面积显示不同值的相对频率,这在技术性出版物不适用。
百分位数图和经验累积分布函数
累积分布函数(cumulative distribution function , CDF):点小于该值的概率
经验累积分布图(eprical cumulative distribution function , ECDF):小于该值点的百分比
散布图
散布图矩阵属性对的散布图以表格的形式安排在一起,同时考察多个散布图
三维散布图三个属性构成的散布图
扩展可以将散布图添加一些附加属性,比如阴影、点的大小、形状,来表示额外的信息
等高线图 (contour plot)对于某些三维数据,两个属性指定平面上的位置,第三个属性具有连续值.可以用等高线图可视化分析。
曲面图 用来描述数学函数和变化相对光滑的物理曲面。
矢量场图 (vector plot)某些数据中 ,一个特性可能同时具有值和方向,比如考虑物质流或随位置改变的密度。
低维切片 时间空间数据集可能有四个维度,不易显示。因此可以显示一组图,来显示变化。
动画 相继的二维切片。更有吸引力。但是不如静态的,静态的图可以按照任意次序、任意多时间来研究信息。
数据矩阵 对数据矩阵进行可视化时,如果类标号已知,则重新排列矩阵的次序,使某个类的所有对象聚在一起,如果不同属性的值域不同可以进行标准化处理,使得均值为0,标准差为1,这防止具有最大量值的属性在视觉上左右图形
寻找对象集的邻近矩阵图也是很有用的,类标号已知时,最好通过对相似矩阵的行列进行排序,以便将某个类的所有对象聚在一起,可以评估每个类的内聚性和与其他类的分离性,
如果类标号未知,则需要简单聚类。
平行坐标系 (parallel coordinates)每个属性都被看做一个坐标轴,每个对象用线表示而不是用点表示。代表不同类的对象的线由其浓淡和类型区分。这可以帮助我们观察不同类的分离性和内聚性。缺点是,属性的排序不同,画出来的图像也不一样,可能会造成混乱,需要多次尝试。
星形坐标和Chernoff脸 使对象每个属性映射到图示符的一个特征,使得属性的值决定特征的准确性质,更加直观。
星形坐标(star corrdinates):该技术对每个属性使用一个坐标轴,这些坐标轴从一个中心点向四周辐射均匀散开。所有的属性值都映射到[0,1]区间。映射方法如下:
将每个属性值映射为一个分数,表示它在该属性的最大值和最小值之间的距离,反映到坐标轴上的一点,然后将各个点连线成一个多边形,这个多边形表示为对象。
Chernoff face:每个属性和一个脸部特征相关,每张脸都是一个对象
ACCENT原则
图形的优点原则 P79
用多维数组表示数据
维是分类属性,或者由连续属性转换而来。属性的个数就是维的大小。属性值的每个组合定义了多维数组的一个单元。数据集合中每个对象落入一个单元中。每个单元的内容代表我们分析时感兴趣的目标量。
下面总结用表形式表示的数据集创建多维数据表示的过程:
首先确定用作维的分类属性以及用作分析目标的定量属性。然后将表的每一行映射到多维数组的一个单元,单元的下标由被选做的维的属性的值指定,而单元的值是目标属性的值。
主要动机就是以多种方式聚集数据。如果对某个维进行求和就可以得到立方体的投影,这就是统计学上的交叉表,可以用python绘制。数据立方体是交叉表的推广
维归约:减少维度
转轴(picoting):在除了两个维之外的所有维上聚集
切片:对若干个维指定值,选取一组单元
切块:指定属性值区间,选取单元子集
上卷(roll up):在一个维度内向上聚集(由月到年)
下钻(drill down):在一个维度内向下聚集