数据挖掘导论学习笔记:第三章 探索数据

3.1鸢尾花数据集

这个数据集包含150种鸢尾花信息,每50种取自三个鸢尾花种之一:Setosa、Versicolour、Virginica。
属性描述:

  1. 萼片长度(cm)
  2. 萼片宽度(cm)
  3. 花瓣长度(cm)
  4. 花瓣宽度(cm)
  5. 类(S、Ve、Vi)

3.2汇总统计(Summary statistics)

汇总统计指的是用单个数或数的小集合捕获很大的值集的各种特征

3.2.1频率和众数

给定一个在 { v 1 , ⋯   , v i , ⋯   , v k } {\{v_1,\cdots,v_i,\cdots,v_k\}} {v1,,vi,,vk}上取值的分类属性 x x x和m个对象单位集合,值 v i v_i vi的频率定义为:
f r e n q u e n c y ( v i ) = 具 有 属 性 值 v i 的 对 象 数 m frenquency(v_i)=\frac{具有属性值v_i的对象数}{m} frenquency(vi)=mvi
值得一提的是,如果使用唯一的值表示遗漏值,则该值常常表示为众数

3.2.2百分位数

对于有序数据,考虑百分位数(percentile)更有意义。具体的定义为:
给定一个有序的或连续的属性 x x x和0与100之间的数 p p p,第 p p p个百分位数 x p x_p xp是一个 x x x值,使得 x x x p % p\% p%的观测值小于 x p x_p xp.

3.2.3位置度量:均值和中位数

均值和中值得知识不再赘述。为了克服传统均值定义的问题引入阶段均值的概念(trimmed mean):指定百分位数p,丢弃高端和低端的 ( p / 2 ) % (p/2)\% (p/2)%的数据,然后用常规方法计算均值。中位数是p=100%时的阶段均值。标准均值对应p=0%,阶段均值可以看做二者的中间状态

3.2.4散步度量:极差和方差

r a n g e ( x ) = m a x ( x ) − m i n ( x ) range(x)=max(x)-min(x) range(x)=max(x)min(x)
v a r i a n c e ( x ) = s x 2 = 1 m − 1 ∑ i = 1 m ( x i − x ^ ) 2 variance(x)=s_x^2=\frac{1}{m-1}\sum _{i=1}^m(x_i-\hat{x})^2 variance(x)=sx2=m11i=1m(xix^)2
这里面方差比极差更可取,但是对离群值仍旧很敏感。因此这里有三种更为稳健的度量。注:这里的分母是(1-m)

  1. 绝对平均偏差(absolute average deviation,AAD)
  2. 中位数绝对偏差(median absolute deviation,MAD)
  3. 四分位数极差(interquartile range,IQR)
    A A D ( x ) = 1 m ∑ i = 1 m ∣ x i − x ˉ ∣ AAD(x)=\frac{1}{m}\sum_{i=1}^m \vert x_i- \bar{x}\vert AAD(x)=m1i=1mxixˉ M A D ( x ) = m e d i a n ( { ∣ x i − x ˉ ∣ , ⋯   , ∣ x m − x ˉ ∣ } ) MAD(x)=median(\{|x_i-\bar{x}|, \cdots ,|x_m-\bar{x}|\}) MAD(x)=median({xixˉ,,xmxˉ}) I Q R ( x ) = x 75 % − x 25 % IQR(x)=x_{75\%}-x_{25\%} IQR(x)=x75%x25%

3.2.5多元汇总统计

对于多元数据(包含多个属性的数据): x ˉ = ( x 1 ˉ . ⋯   , x n ˉ ) \bar{x}=(\bar{x_1}.\cdots,\bar{x_n}) xˉ=(x1ˉ.,xnˉ)
每个属性的散布变化可能具有依赖关系。两个属性一起变化并依赖变量程度的大小,我们用协方差表示。
s i j = c o v e r a n c e ( x i , x j ) = 1 m − 1 ∑ k = 1 m ( x k i − x ˉ i ) ( x k j − x ˉ j ) s_{ij}=coverance(x_i,x_j)\\ \quad \qquad \qquad \qquad =\frac {1}{m-1}\sum_{k=1}^{m}(x_{ki}-\bar{x}_i)(x_{kj}-\bar{x}_j) sij=coverance(xi,xj)=m11k=1m(xkixˉi)(xkjxˉj)
其中 x k j x_{kj} xkj表示第k个对象的第i个值。协方差矩阵我们用 S S S表示。
相关矩阵 R R R比协方差矩阵更可取
r i j = s i j s i s j r_{ij}=\frac{s_{ij}}{s_i s_j} rij=sisjsij

3.3可视化

3.32一般概念

1.表示:将数据映射到图形元素


对于对象:

单个分类 多个属性
聚类并把类表示为表的项或屏幕的区域 将对象表示为表的行列或图的一条线

对于属性:

序数、区间、比率 分类 标称
同样可以映射成有序、连续的图形特征 每个类可以映射到不同位置 用来表示序数值的图形元素通常有序,但标称值没有序

任意给定的数据集中,有许多蕴含的联系,因此可视化的主要难点是选择一种技术,让关注的联系易于观察。

2.安排

对于好的可视化来说,正确选择对象和属性的可视化是基本的要求。在可视化现实中,项的安排也至关重要。**改变对象的排列顺序和属性的顺序可以让形势更加明朗。**除此之外还有别的安排形式。

3.选择

没有很好的办法去对多个属性多对象进行可视化分析,一方面,没有针对多个属性的多维度的表示方法,另一方面对象过多会导致拥挤。
应对办法是,处理多属性最常用的是使用属性子集,如果维度不太高,则可以构造双变量图矩阵。或者让可视化程序自动显示一系列二维图。这涉及到维归约技术。
当多个对象或者数据极差很大时,我们可以通过放大数据的特定区域或者选取数据点样本来解决问题。

3.3.3技术

1.少量数据的可视化

茎叶图 可以用来观测一维整型或连续数据的分布。通过垂直绘制茎,水平绘制叶,可以提供数据分布的可视表示。


4:2334
5:001244445
6:22223349
7:223


直方图 茎叶图是一种特殊的直方图(histogram),将值域分箱,并计算落入各个箱内的对象个数,绘制图像。
直方图的一些变形:

  1. 相对频率直方图:相对频率取代计数,只是一种y轴尺度的变化,形状并不改变。
  2. Pareto直方图:计数从左到右递减
  3. 二维直方图:顾名思义

盒状图 (box plot)显示一维属性值分布的方法
点击此处见详解
饼图 饼图使用相对面积显示不同值的相对频率,这在技术性出版物不适用。
百分位数图和经验累积分布函数
累积分布函数(cumulative distribution function , CDF):点小于该值的概率
经验累积分布图(eprical cumulative distribution function , ECDF):小于该值点的百分比
散布图

用途
  1. 图形化显示两个属性之间的关系
  2. 当类标号给出时,考察两个属性将类分开的程度

散布图矩阵属性对的散布图以表格的形式安排在一起,同时考察多个散布图
三维散布图三个属性构成的散布图
扩展可以将散布图添加一些附加属性,比如阴影、点的大小、形状,来表示额外的信息

可视化的时间空间数据

等高线图 (contour plot)对于某些三维数据,两个属性指定平面上的位置,第三个属性具有连续值.可以用等高线图可视化分析。
曲面图 用来描述数学函数和变化相对光滑的物理曲面。
矢量场图 (vector plot)某些数据中 ,一个特性可能同时具有值和方向,比如考虑物质流或随位置改变的密度。
低维切片 时间空间数据集可能有四个维度,不易显示。因此可以显示一组图,来显示变化。
动画 相继的二维切片。更有吸引力。但是不如静态的,静态的图可以按照任意次序、任意多时间来研究信息。

可视化高维数据

数据矩阵 对数据矩阵进行可视化时,如果类标号已知,则重新排列矩阵的次序,使某个类的所有对象聚在一起,如果不同属性的值域不同可以进行标准化处理,使得均值为0,标准差为1,这防止具有最大量值的属性在视觉上左右图形
寻找对象集的邻近矩阵图也是很有用的,类标号已知时,最好通过对相似矩阵的行列进行排序,以便将某个类的所有对象聚在一起,可以评估每个类的内聚性和与其他类的分离性,
如果类标号未知,则需要简单聚类。

平行坐标系 (parallel coordinates)每个属性都被看做一个坐标轴,每个对象用线表示而不是用点表示。代表不同类的对象的线由其浓淡和类型区分。这可以帮助我们观察不同类的分离性和内聚性。缺点是,属性的排序不同,画出来的图像也不一样,可能会造成混乱,需要多次尝试。
星形坐标和Chernoff脸 使对象每个属性映射到图示符的一个特征,使得属性的值决定特征的准确性质,更加直观。
星形坐标(star corrdinates):该技术对每个属性使用一个坐标轴,这些坐标轴从一个中心点向四周辐射均匀散开。所有的属性值都映射到[0,1]区间。映射方法如下:
将每个属性值映射为一个分数,表示它在该属性的最大值和最小值之间的距离,反映到坐标轴上的一点,然后将各个点连线成一个多边形,这个多边形表示为对象。
Chernoff face:每个属性和一个脸部特征相关,每张脸都是一个对象

3.3.5注意事项

ACCENT原则
图形的优点原则 P79

3.4 OLAP和多维数据分析

3.4.1多维数组

3.4.2 多维数据:一般情况

用多维数组表示数据

  1. 维的识别
  2. 分析所关注的属性的识别

维是分类属性,或者由连续属性转换而来。属性的个数就是维的大小。属性值的每个组合定义了多维数组的一个单元。数据集合中每个对象落入一个单元中。每个单元的内容代表我们分析时感兴趣的目标量
下面总结用表形式表示的数据集创建多维数据表示的过程:
首先确定用作维的分类属性以及用作分析目标的定量属性。然后将表的每一行映射到多维数组的一个单元,单元的下标由被选做的维的属性的值指定,而单元的值是目标属性的值。

3.4.3分析多维数据

数据立方体:计算聚集量

主要动机就是以多种方式聚集数据。如果对某个维进行求和就可以得到立方体的投影,这就是统计学上的交叉表,可以用python绘制。数据立方体是交叉表的推广

一些概念

维归约:减少维度
转轴(picoting):在除了两个维之外的所有维上聚集
切片:对若干个维指定值,选取一组单元
切块:指定属性值区间,选取单元子集
上卷(roll up):在一个维度内向上聚集(由月到年)
下钻(drill down):在一个维度内向下聚集

你可能感兴趣的:(数据挖掘导论学习笔记:第三章 探索数据)