三 探索数据

3.1鸢尾花数据集

三 探索数据_第1张图片

3.2 汇总统计

用单个数或数的小集合捕获可能很大的值集的各种特征。

3.2.1 频率和众数

在这里插入图片描述

3.2.2 百分位数

对有序数据而言

3.2.3 位置度量:均值和中位数

对于连续数据而言
三 探索数据_第2张图片

3.2.4 散布度量:极差和方差

极差:
在这里插入图片描述
方差:
在这里插入图片描述
绝对平均方差:
在这里插入图片描述
中位数绝对偏差:
在这里插入图片描述
四分位数极差:
在这里插入图片描述

3.2.5多元汇总统计

协方差:衡量两个变量的线性关系
连续变量的属性数据的散布:协方差矩阵S
三 探索数据_第3张图片
相关矩阵:
三 探索数据_第4张图片

3.2.6 汇总数据的其他方法

值集的倾斜度:度量值对称分布在均值附近的程度。

3.3.可视化

3.3.1 可视化的动机

快速吸取大量可视化信息,并发现其中的模式。
利用锁在人脑袋中的领域知识。

3.3.2 一般概念

1.表示:将数据映射到图形元素
2.安排
3.选择

3.3.3 技术

1.少量属性的可视化
茎叶图:一维整型或连续数据的分布。
直方图:茎叶图的立方图化
二维直方图
盒状图(箱型图):显示一维数值属性值分布的方法
饼图
散布图:数据对象的两个属性;显示两个属性之间的关系,考察两个属性将类分开的程度。
三维散布图
2.可视化时间空间数据
等高线图:两个属性指定平面的位置,而第三个属性具有连续值。
曲面图:第三个属性指示高出前两个属性定义的平面高度
三 探索数据_第5张图片
矢量场图:数据特征具有值和方向
低维切片:组图
动画

3.3.4 可视化高维数据

矩阵:矩阵值类比成图像的像素,重组织矩阵行列使图像更加实用。
平行坐标系:一个属性一个坐标轴,与传统坐标系不同,平行坐标系不同的坐标轴平行,不是正交的。还有对象用线而不是用点,对象每个属性的值映射到与该属性相关联的坐标轴上的点。

三 探索数据_第6张图片
星形坐标和Chernoff脸
每个属性使用一个坐标轴,坐标轴从一个中心点向四周辐射。
三 探索数据_第7张图片
三 探索数据_第8张图片
特征对象映射到图形,比如脸:脸谱图
三 探索数据_第9张图片
三 探索数据_第10张图片
三 探索数据_第11张图片

3.4 OLAP和多维数据分析

将数据集看作多维数组,OLAP:联机分析处理。

3.4.1用多维数组表示鸢尾花数据

三 探索数据_第12张图片

3.4.2 多维数据:一般情况

事实表:表的形式表示数据
维数:属性个数
维大小:属性的取值个数
维的数组下标:属性值
多维数组的单元:属性值的每个组合
每个单元的内容代表一个我们在分析时感兴趣的目标量的值

3.4.3 分析多维数据

1.数据立方体:计算聚集量
2.维规约和转轴
维规约:通过计算某一维度的聚集量来降维
转轴:指在除两个维之外的所有维上的聚集,结果是一个二维交叉表
3.切片和切块
4.上卷和下钻:属性值再操作:聚集(上卷),分解(下钻)

你可能感兴趣的:(数据挖掘导论)