数据挖掘导论 笔记3

给定一个无序的、分类的值的集合,为了进一步刻画值的性质,除计算特定数据集中每个值出现的频率外没有多少的事情可做。给定一个在{1, … Vi, … Vk}.上取值的分类属性x和m个对象的集合,值vi的频率定义为:
在这里插入图片描述
分类属性的众数(mode) 是具有最高频率的值。
百分位数
对于有序数据,考虑值集的百分位数(percentile) 更有意义。具体地说,给定-一个有序的或连续的属性x和0与100之间的数p,第p个百分位数x是一个x值,使得x的p%的观测值小于xp。例如,第50个百分位数是值x50%,使得x的所有值的50%小于x50%。如第五百分位,它表示在所有测量数据中,测量值的累计频次达5%。以身高为例,身高分布的第五百分位表示有5%的人的身高小于此测量值,95%的身高大于此测量值。
步骤
第1步:以递增顺序排列原始数据(即从小到大排列)。
第2步:计算指数i=np%
第3步:
l)若 i 不是整数,将 i 向上取整。大于i的毗邻整数即为第p百分位数的位置。
2) 若i是整数,则第p百分位数是第i项与第(i+l)项数据的平均值。
另外一种方法,这种方法是SPSS所用方法,也是SAS所用方法之一。
第一步:将n个变量值从小到大排列,X(j)表示此数列中第j个数
第二步:计算指数,设(n+1)P%=j+g,j为整数部分,g为小数部分(零点几)。
第三步:1)当g=0时:P百分位数=X(j);
2)当g≠0时:P百分位数=gX(j+1)+(1-g)X(j)=X(j)+g[X(j+1)-X(j)]。
均值和中位数不再赘述
截断均值
为了克服传统均值定义的问题,有时使用截断均值(trimmed mean)概念。指定0和100之间的百分位数p,丢弃高端和低端(p/2)%的数据,然后用常规的方法计算均值,所得的结果即是截断均值。中位数是p = 100%时的截断均值,而标准均值是对应于p = 0%的截断均值。
eg.
考虑值集{1、2、3、4、5、90},其截断均值(p=40%)是
6×p/2=1.2,四舍五入为1,两端各去掉一个数, 除去1和90,均值为3.5。
散布度量:极差和方差
最简单的散布度量是极差(range)。 给定属性x,它具有m个值{x,-, xm}, x的极差定义为:range(x) = max(x)一min(x)= x(m) - x1)
尽管极差标识最大散布,但是如果大部分值都集中在一个较窄的范围内,并且更极端的值的个数相对较少,则可能会引起误解。因此,作为散布的度量,方差(variance) 更可取。通常,属性x的(观测)值的方差记作sx2,并在下面定义。标准差(standard deviation)是方差的平方根,记作sx,它与x具有相同的单位。

均值可能被离群值扭曲,并且由于方差用均值计算,因此它也对离群值敏感。确实,方差对离群值特别敏感,因为它使用均值与其他值的差的平方。这样常常需要使用比值集散布更稳健的估计。下面是三种这样的度量的定义:绝对平均偏差(absolute average deviation, AAD)中位
数绝对偏差(median absolute deviation, MAD)四分位数极差(interquartile range, IQR)

数据挖掘导论 笔记3_第1张图片
多元汇总统计
包含多个属性的数据(多元数据)的位置度量可以通过分别计算每个属性的均值或中位数得到。这样,给定一个数据集,数据对象的均值由
在这里插入图片描述
给出,其中是第i个属性x;的均值。
协方差矩阵
对于多元数据,每个属性的散布可以独立于其他属性,使用3.2.4 节介绍的方法计算。然而,对于具有连续变量的数据,数据的散布更多地用协方差矩阵(covariance matrix) S表示,其中,s的第ij个元素sij是数据的第i个和第j个属性的协方差。这样,如果xi和xj分别是第i个和第j个属性,则
在这里插入图片描述
协方差矩阵具体例子
在纸上写写就懂了
多个维度下相关系数比协方差更优越
数据挖掘导论 笔记3_第2张图片
由协方差公式的量纲,得出的结果是包含单位的,这样体重是和年龄更有关(kg
岁)还是和身高(kg*m)更有关就没办法比较了,但是由相关性公式的量纲,单位被舍去了,就可以比较哪个更有关了。
协方差与相关系数详解
相关性矩阵
在这里插入图片描述
反应第i和第j个属性的相关性。
可视化数据挖掘
安排
数据挖掘导论 笔记3_第3张图片
选择
可视化的另-一个关键概念是选择( selection),即删除或不突出某些对象和属性。选择一对(或少数)属性的技术是一类维归约, 并且有许多更复杂的维归约可以使用,如主成分分析(PCA)。
茎叶图
可以用来观测一维整型或连续数据的分布

数据挖掘导论 笔记3_第4张图片
直方图
茎叶图是一种类型的直方图(histogram)。 该图通过将可能的值分散到箱中,并显示落入每个箱中的对象数,显示属性值的分布。对于分类属性,每个值在-一个箱中。如果值过多,则使用某种方法将值合并。对于连续属性,将值域划分成箱(通常是等宽的,但不必是等宽的),并对每个箱中的值计数。

直方图有一些变形。 相对频率直方图(relative frequency histogram) 用相对频率取代计数,
二维直方图
二维直方图(two dimensional histogram)也是一种类型的直方图。它将每个属性划分成区间,而两个区间集定义值的二维长方体。
数据挖掘导论 笔记3_第5张图片
盒状图
盒状图(box plot)是另一种显示一维数值属性值分布的方法。图3-10显示萼片长度的加标记的盒状图。盒的下端和上端分别指示第25和第75个百分位数,而盒中的线指示第50个百分位数的值,底部和顶部的尾线分别指示第10和第90个百分位数,离群值用“+”显示。
盒状图相对紧凑,因此可以将许多盒状图放在一个图中。 还可以使用占据较少空间的盒状图的简化版本。
数据挖掘导论 笔记3_第6张图片
百分位数图和经验累计分布函数
一种更定量地显示数据分布的图是经验累计分布函数图。
一个累计分布函数(cumulative distribution function, CDF)显示点小于该值的概率。对于每个观测值,一个经验累计分布函数(empirical cumulative distribution function,ECDF) 显示小于该值的点的百分比。由于点的个数是有限的,经验累计分布函数是一个阶梯函数。

数据挖掘导论 笔记3_第7张图片
属性对的散布图安排在一种称作散布图矩阵(scatter plot matrix)的表格形式中,提供了一种有组织的方式,以同时考察许多散布图。
散布图有两个主要用途。其一,它们图形化地显示两个属性之间的关系。在2.4.5节,我们看到如何使用散布图判定线性相关程度(见图2-17)。直接使用散布图,或者使用变换后属性的散布图,也可以判定非线性关系。
其二,当类标号给出时,可以使用散布图考察两个属性将类分开的程度。如果可以画一条直线(或一条更复杂的曲线)将两个属性定义的平面分成区域,每个区域包含-一个类的大部分对象,则可能基于这对指定的属性构造精确的分类器;否则的话,就需要更多的属性或更复杂的方法建立分类器。在图3-16 中,许多属性对(例如,花瓣宽度和花瓣长度)都提供了适度的鸢尾花种类分隔。
数据挖掘导论 笔记3_第8张图片
数据挖掘导论 笔记3_第9张图片
矢量场图在某些数据中, 一个特性可能同时具有值和方向。例如,考患物质流或随位置改变的密度。在这些情况下,同时显示方向和量的图可能是有用的。这种类型的图称作矢量图( vector plot)。
数据挖掘导论 笔记3_第10张图片
低维切片
考虑时间空间数据集,它记录不同地点和时间上的某种量,如温度或气压。这样的数据有四个维,不容易用迄今所介绍的图来显示。然而,通过显示-组图,每月一个,可以显示数据的各个“切片”。通过考察特定区域的逐月改变,就可能注意到所出现的变化,包括可能因为季节原因而导致的变化。
数据挖掘导论 笔记3_第11张图片
数据挖掘导论 笔记3_第12张图片
数据挖掘导论 笔记3_第13张图片
星形坐标和Chernoff脸

数据挖掘导论 笔记3_第14张图片
数据挖掘导论 笔记3_第15张图片

你可能感兴趣的:(笔记,数据挖掘)