数据挖掘导论学习笔记(二)

第三章 探索数据
汇总统计:量化的(如均值和标准差),用单个数或数的小集合捕获可能很大的值集的各种特征。

频率:具有属性值vi的对象数/总数
分类属性的众数就是具有最高频率的值。

百分位数:给定一个有序的或连续的属性x和0到100之间的数p,第p个百分位数xp是一个x值,似的x的p%的观测值小于xp。

值集位置的度量:
(1)均值:平均值,对于离群值比较敏感
(2)中位数
截断均值:指0到100之间的百分位数p,丢弃高端和低端的p/2%的数据,然后用常规方法计算均值,就是阶段均值。
中位数是p=100的阶段均值,标准均值是p=0的阶段均值。

散布度量:
(1)极差:最大值减去最小值
(2)方差或标准差
因为均值可能被离群值扭曲,所以方差也可能对离群值敏感
更稳健的估计为:绝对平均偏差,中位数绝对偏差,四分位数极差

多元汇总统计:
(1)协方差矩阵
(2)相关矩阵
(3)值集倾斜度

可视化:指以图形或表格的形式显示信息。目标是可视化信息的人工解释和信息的意境模型的形成。
(1)将信息映射成可视化形式,即将信息中的对象属性和联系映射成可是的对象属性和联系。
对象用三种方法表示:
一:如果只考虑对象的单个分类属性,则通常根据该属性的值将对象聚成类,并且把类作为表的项或屏幕的区域显示。
二:如果对象具有多个属性,则可以将对象显示为标的一行(或列),或显示为图的一条线。
三:对象常常解释为二维或三维空间中的点,起哄点可能用几何图形表示。
属性,其表示依赖的属性的类型。
序数和连续的属性可以映射成连续的,有序的图形特征
分类属性,每个类别可以映射到一个不同的位置,颜色形状,方位,修饰物或表的列。
标称属性,要小心,因为无序。
(2)选择:即删除或不突出某些对象和属性。

可视化技术
一 少量属性的可视化
1 茎叶图:用来窥视一维整型或连续数据的分布。
例:35,36,41,56 茎是高位数字,叶是地位数字。垂直绘制茎,水平绘制叶。

2 直方图:通过将可能的值分散到箱中,并显示每个箱中的个数,直方图显示属性值的分布。
一旦有了每个箱的计数,就可以构造条形图。
二维直方图:每个属性划分成区间,而每个区间集定义值的二维长方体。

3 盒状图:显示一维数值属性值分布的方法。

4 饼图:通常用于相对较少的值的分类属性
累计分布函数:显示点小于该值的概率
经验累计分布函数:显示小于该值的点的百分比。由于点的个数是有限的,经验累积分布函数是一个阶梯函数。

5 散布图:使用数据对象两个属性的值作为x,y坐标值,每个数据对象都作为平面上的一个点绘制。
用途:
(1)图形化的显示两个属性之间的关系
(2)当类标号给出时,可以使用散布图考虑两个属性将类分开的程度。

二 可视化时间空间数据
1 等高线图:将平面划分成一些区域,区域中的第三个属性的值粗略相等
2 曲面图:使用两个属性表示x,y坐标,曲面图的第三个属性用来指示高出前两个属性定义的平面的高度。
3 矢量场图:一个同时显示方向和量的图
4 低维切片
5 动画:显示数据的相继二维切片

三 可视化高维数据
1 矩阵
2 平行坐标系:每个属性一个坐标轴
3 星形坐标

可视化注意事项
1 理解 2 清晰性 3一致性 4 有效性 5必要性 6 真实性

表形式表示的数据集创建多维数据表示的过程:
(1)确定用作维的分类属性以及用作分析目标的定量属性。
(2)将表的每一行(对象)映射到多维数组的一个单元,单元的下标由被选作维的属性的值指定,而单元的值是目标属性的值,假定没有被数据定义的单元的值为0。
用多维数组表示数据需要两个步骤:维的识别 分析所关注的属性的识别

数据立方体:数据的多维表示,连同所有可能的总和(聚集)称作数据立方体。
转轴:指在除两个维以外的所有维上聚集。
切片:通过对一个或多个维指定特定的,从整个多维数组中选择一个单元。
切块:通过指定属性值区间选择单元子集,这等价于由整个数组定义子数组。
上卷:每天销售–>按月聚集
下钻:每月销售–>分解成日销售总和

你可能感兴趣的:(数据挖掘导论基础知识)