数据挖掘学习笔记(二)

1        认识数据

1.1   数据对象和属性类型

数据集由数据对象组成。一个数据对象代表一个实体。通常,数据对象用属性描述。数据对象又称样本、实例、数据点对象

1.1.1           什么是属性

属性(attribute)是一个数据字段,表示数据对象的一个特征。用来描述一个给定对象的一组属性称做属性向量(或特征向量)。

1.1.2           标称属性

标称属性(nominal attribute)的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看做是分类的(categorical)。这些值不必具有有意义的序。

1.1.3           二元属性

二元属性(binary attribute)是一种标称属性,只有两个类别或状态:0或1,其中0通常表示属性不出现,而1表示出现。二元属性又称布尔属性

一个二元属性是对称的,如果它的两种状态具有同等价值并且携带相同的权重;即,关于哪个结果应该用0或1编码并无偏好。

一个二元属性是非对称的,如果其状态的结果不是同样重要的。为方便计,我们将用1对最重要的结果编码,而另一个用0编码。

1.1.4           序数属性

序数属性(ordinal attribute)是一种属性,其可能的值之间具有有意义的序或秩评定(ranking),但是相继值之间的差是未知的。

对于记录不能客观度量的主观质量评估,序数属性是有用的。

注意,标称、二元和序数属性都是定性的。

1.1.5           数值属性

数值属性(numeric attribute)是定量的,即它是可度量的量用整数或实数值表示。数值属性可以是区间标度的或比率标度的。

1.       区间标度属性

区间标度(interval-scaled)属性用相等的单位尺度度量。区间属性的值有序,可以为正、0或负。

2.       比率标度属性

比率标度(ratio-scaled)属性是具有固有零点的数值属性。

1.1.6           离散属性与连续属性

机器学习领域开发的分类算法通常把属性分成离散的或连续的。

离散属性具有有限或无限可数个值,可以用或不用整数表示。

如果属性不是离散的,则它是连续的。

1.2   数据的基本统计描述

1.2.1           中心趋势度量:均值、中位数和众数

均值(mean)

加权算数均值或加权平均

截尾均值(trimmed mean)

中位数(median)

众数(mode),数据集的众数是集合中出现最频繁的值。

中列数(midrange)是数据集中最大和最小值的平均值。

1.2.2           度量数据散布:极差、四分位数、方差、标准差和四分位数极差

1.       极差、四分位数和四分位数极差

极差(range)是最大值与最小值之差。

分位数(quantile)是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。

四分位数(quartile)

百分位数(percentile)

四分位数极差:IQR=Q1-Q3

2.       五数概括、盒图与离群点

分布的五数概括(five-numbersummary)由中位数(Q2)、四分位数Q1和Q3、最小和最大观测值组成,按次序Minimum, Q1, Median, Q3,Maximum写出。

盒图(boxplot)是一种流行的分布的直观表示。

3.       方差和标准差

方差和标准差都是数据散布度量,它们指出数据分布的散布程度。

1.2.3           数据的基本统计描述的图形显示

1.       分位数图(quantile plot)

2.       分位数-分位数图(quantile-quantile plot)

3.       直方图(histogram, frequency histogram)

4.       散点图(scatter plot)与数据相关

1.3   数据可视化

数据可视化(Data Visualization)旨在通过图形表示清晰有效地表达数据。

1.3.1           基于像素的可视化技术

1.3.2           几何投影可视化技术

1.3.3           基于图符的可视化技术

切尔诺夫脸(Chernoff faces)

人物线条画(stick figure)

1.3.4           层次可视化技术

世界中的世界(Worlds-within-Worlds)

树图(tree-map)

1.3.5           可视化复杂对象和关系

标签云(tag cloud)

1.4   度量数据的相似性和相异性

1.4.1           数据矩阵与相异性矩阵

数据矩阵(data matrix),或称对象-属性结构

相异性矩阵(dissimilarity matrix),或称对象-对象结构

1.4.2           标称属性的邻近性度量

 

1.4.3           二元属性的邻近性度量

 

1.4.4           数值属性的相异性:闵可夫斯基距离

欧几里得距离、曼哈顿距离和闵可夫斯基距离

1.4.5           序数属性的邻近性度量

 

1.4.6           混合类型属性的相异性

 

1.4.7           余弦相似性

 

你可能感兴趣的:(数据挖掘学习笔记(二))