数据挖掘导论笔记 第二章

数据

  • 2.1 数据类型
    • 2.2.1 属性与度量
      • 1.什么是属性
      • 2.属性类型
      • 3.属性的不同类型
      • 4.用值的个数描述属性
      • 5.非对称的属性
    • 2.1.2 数据集的类型
      • 1.数据集的一般特性
      • 2.记录数据(Record)
      • 3.基于图形的数据
      • 4.有序数据
  • 2.2 数据质量
    • 2.2.1 测量和数据收集问题
      • 1.测量误差和数据收集错误
      • 2.噪声和伪像
      • 3.精度、偏倚和准确率
      • 4.离群点
      • 5.遗漏值
      • 7.重复数据
  • 2.3 数据预处理
    • 2.3.1 聚集
    • 2.3.2 抽样
      • 1.抽样方法
    • 2.3.3 维规约
      • 1.维灾难
      • 2.维规约的线性代数技术
    • 2.3.4 特征子集选择
      • 1.特征子集选择体系结构
      • 2.3.5 特征创建
      • 2.3.6 离散化和二元化
      • 1.二元化
      • 2.连续属性离散化
    • 2.3.7 变量变换
      • 1.简单函数
      • 2.规范化或者标准

参考的是数据挖掘导论(Pang-Ning Tan、 Michael Steinbach、Vipin Kumar),但是感觉这本书翻译真的好差,完全不是在说人话……结合老师的PPT,所以基本上只摘了PPT中的相关内容。

2.1 数据类型

数据集
数据对象的集合,数据对象用一组刻画对象基本特征的属性描述。
通常,数据集是一个文件,其中对象是文件的记录(Record)(或行),每一个段或列对应一个属性。

2.2.1 属性与度量

1.什么是属性

属性
是对象的性质或特性,它因对象而异,或随时间而变化。

测量标度
是将数值或符号值与对象的属性相关联的规则(函数)。形式上,测量过程是使用一个测量标度将一个值与一个特定对象的特定属性相关联。

2.属性类型

属性的性质不必与用来度量它的值的性质相同,用来代表属性的值可能具有不同于属性本身的性质。
属性的类型告诉我们,属性的哪些性质反映在用于测量它的值中,通常将属性的类型称作测量标度的类型。

3.属性的不同类型

数值的性质
可以根据数值性质来判断属性类型。

  1. 相异性 =和≠
  2. 序 <、≤、>、≥
  3. 加法 +和-
  4. 乘法 ×和÷

属性类型

属性类型 描述 例子 操作 性质
标称(nominal) 以不同名字或数值区分对象 邮政编码、雇员ID、眼球颜色、性别 众数、熵、列联相关 相异
序数(ordinal) 确定对象的序 成绩、街道号码 中值、百分位、秩相关 相异、序
区间(interval) 存在测量单位 日期、摄氏度 均值、标准差 相异、序、加法
比率(ratio) 差和比率都是有意义的 绝对温度、货币量、计数、年龄、质量、长度 几何平均、调和平均 相异、序、加法、乘法
  • 赋予标称、序数和区间属性合法的操作,对于比率也合法。
  • 标称和序数统称分类(categorical)或定性(qualitative)属性、区间和比率统称为定量(quantitative)或数值(numeric)属性,定量属性可以是离散值或连续值。

保持意义的变换

标称(nominal) 任何一对一变换,如值的排列
序数(ordinal) 值的保序变换,即**新值=f(旧值)**其中f是单调函数
区间(interval) 新值=a*旧值+b
比率(ratio) 新值=a*旧值

4.用值的个数描述属性

  • 离散 离散属性具有有限个值或无限可数个值,是分类的。通常用整数型表示。二元属性是离散属性的特殊情况,只接受两个值。
  • 连续 连续属性是取实数值的属性。通常用浮点型表示。

5.非对称的属性

出现非零属性值才是重要的。只有非零值才重要的二元属性是非对称的二元属性。

2.1.2 数据集的类型

1.数据集的一般特性

维度(dimensionality) 数据集的维度是数据集中的对象具有的属性数。
稀疏(sparsity)性 数据集中一个对象的大部分属性值都为0。
分辨率(resolution) 测量精度,不同分辨率下数据的性质不同。
大小 分析类型取决于数据集大小

2.记录数据(Record)

记录之间或数据字段之间没有明显的联系,并且每个记录(对象)具有相同的属性集。
记录数据通常存放在平展文件或关系数据库中。

事物数据 事物数据(transaction data)中每一个记录涉及一系列的项,或称为购物篮数据,因为记录中的项就是顾客购物篮中的商品。事物数据是项的集合的集族,也能将它视为记录的集合,其中记录的字段是非对称的属性。
数据挖掘导论笔记 第二章_第1张图片

数据矩阵
如果一个数据对象具有相同的数值属性集,那么数据对象可以看做多维空间中的点(向量),其中每个维代表对象的一个不同属性。这样的数据对象可以用一个m×n的矩阵表示,行代表对象,列代表属性。这种矩阵称为数据矩阵或者模式矩阵。

3.基于图形的数据

  1. 图形捕获数据对象之间的联系
  2. 数据对象本身用图形表示

带有对象之间联系的数据 这种情况下数据尝尝用图形表示。一般把数据对象映射到图的结点,而对象之间的联系用对象之间的链和方向、权重等链性质表示。

具有图形对象的数据 如果对象具有结构,即对象包含具有联系的子对象,则这样的对象常常用图形表示。
数据挖掘导论笔记 第二章_第2张图片

4.有序数据

时序数据 也称时间数据,可以看做记录的扩充,其中每个记录包含一个与之相关联的时间。
数据挖掘导论笔记 第二章_第3张图片
序列数据 与时序数据相似但没有时间戳,只是有序序列,考虑项的位置。如上图基因基因序列。

时间序列数据 特殊的时序数据,每个记录都是一个时间序列,即一段时间以来的测量序列。分析时需要考虑时间自相关,即如果两个测量的时间很近,则这些测量的值通常很相似。

空间数据 特点是空间自相关性,即物理上靠近的对象趋向于在其他方面也相似。

2.2 数据质量

  1. 数据质量问题的检测和纠正
  2. 使用可以容忍低质量数据的算法

2.2.1 测量和数据收集问题

1.测量误差和数据收集错误

测量误差 测量过程中导致的问题。对于连续属性,测量值与实际值的差称为误差
数据收集错误 诸如遗漏数据对象或属性值,或不当地包含了其他数据对象等错误。

2.噪声和伪像

噪声 测量误差的随机部分,通常用于包含时间或空间分量的数据。常常可以使用信号或图像处理技术降低噪声。数据错误可能是更确定性现象的结果,数据的这种确定性失真常称作伪像(artifact)。
数据挖掘导论笔记 第二章_第4张图片

3.精度、偏倚和准确率

测量过程和结果数据的质量用精度和偏倚度量。
精度 同一个量的重复测量值之间的接近程度。通常用值集合的标准差度量。
偏倚 测量值好被测量值之间的系统的偏差。通常用值集合的均值和测出的已知值之间的差度量。只有那些通过外部手段能够得到测量值的对象,偏倚才是可确定的。
准确率 被测量的测量值和实际值之间的接近度。

4.离群点

离群点
在某种意义上具有不同于数据集中其他大部分数据对象的特征的数据对象,或是相对于该属性的典型值来说不寻常的属性值,也成为异常对象或异常值。离群点可以是合法的数据对象或值。
离群点不一定是噪声、噪声也不一定是离群点。

5.遗漏值

  1. 信息收集不全
  2. 某些属性并不能用于所有对象

处理遗漏值的策略

  • 删除数据对象或属性
  • 估计遗漏值
  • 在分析时忽略遗漏值

7.重复数据

某些情况下,两个或多个对象在数据库的属性度量上是相同的,但是仍代表不同的对象。

2.3 数据预处理

2.3.1 聚集

聚集
将两个或多个对象合并成单个对象。可把数据看作多维数组,则聚集是删除属性的过程,或是压缩特定属性不同值个数的过程。

2.3.2 抽样

有效抽样原理如下:如果样本是有代表性的,则使用样本与使用整个数据集的效果几乎一样,而样本是由代表性的,前提是它近似地具有与元数据集相同的性质。

1.抽样方法

简单随机抽样

  1. 无放回抽样 每个选中项立即从构成总体的所有对象中删除。
  2. 有放回抽样 对象被选中时不从总体时中删除,相同的对象可能被多次抽出。
    当样本与数据集相比较小时,两种方法产生的样本差别不大。对于分析,有放回抽样较为简单,因为在抽样过程中,每个对象被选中的概率保持不变。

分层抽样
从预先指定的组开始抽样。

抽样与信息损失
较大的样本容量增大了样本具有代表性的概率,但也抵消了抽样带来的许多好处。
较小的容量可能丢失模式,或检测出错误的模式。
数据挖掘导论笔记 第二章_第5张图片

2.3.3 维规约

维规约
通过创建新属性,将一些旧属性合并在一起来降低数据集的维度。通过选择旧属性的子集得到新属性,这种维规约称为特征子集选择特征选择

维规约的目的

  • 删除不相关的特征并降低噪声
  • 减少维灾难
  • 使模型更容易理解
  • 容易让数据可视化

1.维灾难

维灾难
随着数据维度的增加,许多数据分析变得非常困难。对于分类,没有足够的数据对象来创建模型,将所有可能的对象可靠地指派到一个类。对于聚类,点之间的密度和距离的定义失去了意义。分类准确率降低,聚类质量下降。

2.维规约的线性代数技术

将数据由高维空间投影到低维空间。
主成分分析 用于连续属性的线性代数技术,它找出新的属性(主成分),这些属性是原属性的线性组合,是相互正交的,并且捕获了数据的最大变差。

2.3.4 特征子集选择

冗余特征 重复了包含在一个或多个其他属性中的许多或所有信息。
不相关特征 包含对于手头的数据挖掘任务几乎完全没用的信息。

嵌入方法 在算法执行过程中,算法本身决定使用哪些属性和忽略哪些属性。构造决策树分类器通常以这种方式运行。
过滤方法 使用某种独立于数据挖掘任务的方法,在数据挖掘算法运行前进行特征选择。
包装方法 这些方法将目标数据挖掘算法作为黑盒,使用类似于前面介绍的理想算法,但通常并不枚举所有可能的子集来找出最佳属性子集。
暴风(Brute Force)算法 是普通的模式匹配算法,将目标串S的第一个字符与模式串T的第一个字符进行匹配,若相等,则继续比较S的第二个字符和 T的第二个字符;若不相等,则比较S的第二个字符和T的第一个字符,依次比较下去,直到得出最后的匹配结果。

1.特征子集选择体系结构

  • 子集评估度量
  • 控制新的特征子集产生的搜索策略
  • 停止搜索判断
  • 验证过程数据挖掘导论笔记 第二章_第6张图片

2.3.5 特征创建

  • 特征提取
  • 映射数据到新的空间
  • 特征构造

2.3.6 离散化和二元化

离散化 将连续属性变成分类属性。
二元化 连续和离散属性需要变换成一个或多个二元属性。

1.二元化

简单技术:如果有m个分类值,则将每个原始值唯一地赋予区间[0,m-1]中的一个整数,如果属性是有序的,则赋值必须保持序关系。然后再将整数变换为二进制数。但可能导致复杂化,建立转换后属性之间的关联。

2.连续属性离散化

决定多少个分割点和确定分割点位置:

  • 决定需要多少个分类值:将连续属性值排序后,通过指定n-1个分割点,分成n个区间。
  • 确定如何将连续属性映射到这些分类值:将一个区间中的所有值映射到相同的分类。

非监督离散化

监督:使用类信息
设k是不同的类标号数,mi是某划分的第i个区间中值的个数,则mij是区间i中类j的个数。第i个区间的熵ei熵
其中pij=mij/mi是第i个区间中类j的概率。
该划分的总熵e是每个区间的熵的加权平均,即总熵

非监督:不使用类信息
- 等宽 将属性的值域划分成具有相同宽度的区域,而区间的个数由用户指定。
- 等频率 将相同数量的对象放进每个区间。
数据挖掘导论笔记 第二章_第7张图片
简单方法:开始将初始值切分成两部分,让两个结果区间产生最小熵。然后,去一个区间,通常选取具有最大熵的区间,重复分割此过程,直到区间的个数达到用户制定个数。
数据挖掘导论笔记 第二章_第8张图片

2.3.7 变量变换

变量变换 用于变量的所有值的变换。

1.简单函数

2.规范化或者标准

目标是使整个值的集合具有特定的性质。

你可能感兴趣的:(数据挖掘)