1 认识数据
1.1 数据对象和属性类型
数据集由数据对象组成。一个数据对象代表一个实体。通常,数据对象用属性描述。数据对象又称样本、实例、数据点或对象。
1.1.1 什么是属性
属性(attribute)是一个数据字段,表示数据对象的一个特征。用来描述一个给定对象的一组属性称做属性向量(或特征向量)。
1.1.2 标称属性
标称属性(nominal attribute)的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看做是分类的(categorical)。这些值不必具有有意义的序。
1.1.3 二元属性
二元属性(binary attribute)是一种标称属性,只有两个类别或状态:0或1,其中0通常表示属性不出现,而1表示出现。二元属性又称布尔属性。
一个二元属性是对称的,如果它的两种状态具有同等价值并且携带相同的权重;即,关于哪个结果应该用0或1编码并无偏好。
一个二元属性是非对称的,如果其状态的结果不是同样重要的。为方便计,我们将用1对最重要的结果编码,而另一个用0编码。
1.1.4 序数属性
序数属性(ordinal attribute)是一种属性,其可能的值之间具有有意义的序或秩评定(ranking),但是相继值之间的差是未知的。
对于记录不能客观度量的主观质量评估,序数属性是有用的。
注意,标称、二元和序数属性都是定性的。
1.1.5 数值属性
数值属性(numeric attribute)是定量的,即它是可度量的量用整数或实数值表示。数值属性可以是区间标度的或比率标度的。
1. 区间标度属性
区间标度(interval-scaled)属性用相等的单位尺度度量。区间属性的值有序,可以为正、0或负。
2. 比率标度属性
比率标度(ratio-scaled)属性是具有固有零点的数值属性。
1.1.6 离散属性与连续属性
机器学习领域开发的分类算法通常把属性分成离散的或连续的。
离散属性具有有限或无限可数个值,可以用或不用整数表示。
如果属性不是离散的,则它是连续的。
1.2 数据的基本统计描述
1.2.1 中心趋势度量:均值、中位数和众数
均值(mean)
加权算数均值或加权平均
截尾均值(trimmed mean)
中位数(median)
众数(mode),数据集的众数是集合中出现最频繁的值。
中列数(midrange)是数据集中最大和最小值的平均值。
1.2.2 度量数据散布:极差、四分位数、方差、标准差和四分位数极差
1. 极差、四分位数和四分位数极差
极差(range)是最大值与最小值之差。
分位数(quantile)是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。
四分位数(quartile)
百分位数(percentile)
四分位数极差:IQR=Q1-Q3
2. 五数概括、盒图与离群点
分布的五数概括(five-numbersummary)由中位数(Q2)、四分位数Q1和Q3、最小和最大观测值组成,按次序Minimum, Q1, Median, Q3,Maximum写出。
盒图(boxplot)是一种流行的分布的直观表示。
3. 方差和标准差
方差和标准差都是数据散布度量,它们指出数据分布的散布程度。
1.2.3 数据的基本统计描述的图形显示
1. 分位数图(quantile plot)
2. 分位数-分位数图(quantile-quantile plot)
3. 直方图(histogram, frequency histogram)
4. 散点图(scatter plot)与数据相关
1.3 数据可视化
数据可视化(Data Visualization)旨在通过图形表示清晰有效地表达数据。
1.3.1 基于像素的可视化技术
1.3.2 几何投影可视化技术
1.3.3 基于图符的可视化技术
切尔诺夫脸(Chernoff faces)
人物线条画(stick figure)
1.3.4 层次可视化技术
世界中的世界(Worlds-within-Worlds)
树图(tree-map)
1.3.5 可视化复杂对象和关系
标签云(tag cloud)
1.4 度量数据的相似性和相异性
1.4.1 数据矩阵与相异性矩阵
数据矩阵(data matrix),或称对象-属性结构
相异性矩阵(dissimilarity matrix),或称对象-对象结构
1.4.2 标称属性的邻近性度量
1.4.3 二元属性的邻近性度量
1.4.4 数值属性的相异性:闵可夫斯基距离
欧几里得距离、曼哈顿距离和闵可夫斯基距离
1.4.5 序数属性的邻近性度量
1.4.6 混合类型属性的相异性
1.4.7 余弦相似性