数据挖掘导论 - 第二章:数据 - 笔记

文章目录

  • 数据类型
    • 描述数据属性
    • 属性类型
      • 定义属性层次的变换
      • 非对称的属性
  • 数据质量
      • 鲁棒算法
  • 数据预处理
    • 聚集
      • 定义
      • 动机
    • 抽样
      • 动机
      • 方法
        • 简单随机抽样
          • 信息损失
        • 渐进抽样
    • 维归约
      • 维归约的线性代数技术
    • 特征子集选择
      • 特征子集选择体系结构
      • 特征加权
    • 特征创建
      • 特征提取
      • 映射数据到新的空间
        • 傅里叶变换
        • 小波变换
      • 特征构造
    • 离散化和二元化
    • 变量变换
      • 简单函数
      • 规范化或标准化

数据类型

描述数据属性

  • 相异性 = !=
  • 序 < <= > >=
  • 加法 + -
  • 乘法 * /

属性类型

  • 标称:分类的 = !=
    不同的名字,用以区分对象
    【例】邮编、性别、ID、眼球颜色
  • 序数:分类的 < >
    用以确定对象的序
    【例】成绩、街道号码、矿石硬度(好、较好、最好)
  • 区间:数值的 + -
    有意义的是数值间的差
    【例】日历日期、摄氏度(0°C不是最低温,摄氏度是与0°C的差值)
  • 比率:比率的 * /
    有意义的事差和比率
    【例】绝对温度、货币量、计数、年龄、质量、长度、电流
    数据挖掘导论 - 第二章:数据 - 笔记_第1张图片

定义属性层次的变换

数据挖掘导论 - 第二章:数据 - 笔记_第2张图片

非对称的属性

关注非零值
【例】一个关于学生选课的表,学生只修选修课中的小部分,因此大部分为零值,此时含有大量零值,每条信息都差不多,除非关注非零值。

数据质量

鲁棒算法

再噪声干扰下也能产生可以接受的结果

数据预处理

聚集

定义

删除属性的过程,压缩特定属性不同值个数的过程

动机

  • 数据归约减少内存使用和处理时间
  • 通过高层数据视图,聚集起到范围或标度转换的作用

抽样

动机

压缩数据,使用更好但开销较大的数据挖掘算法

方法

简单随机抽样

选取任何特定项的概率相等

  • 无放回抽样
    每个选中项立即从够成总体的所有对象集中删除
  • 有放回抽样
    对象被选中时不从总体中删除,相同对象可被多次抽取
  • 分层抽样
    适用于为稀有类构建分类模型。将对象分组,从每个分组中抽取一定数量
信息损失

大容量增大了样本具有代表性的概率,但抵消了抽样带来的好处。
小容量可能丢失了模式或检测出错误模式。

渐进抽样

实时判断样本容量是否足够,并选择是否继续增加容量。

维归约

当数据集包含大量特征的时候,删除不相关的特征并降低噪声。
使只能涉及少量属性的模型能理解大量特征的数据集
使数据更易可视化
降低了数据挖掘的始建于内存

维归约的线性代数技术

将数据由高维投影到低维空间,特别是连续数据

  • 主成分分析
    用于连续属性。找出新的属性(主成分),这些属性使原属性的线性组合,之间相互正交,且捕获数据的变差
  • 奇异值分解

特征子集选择

数据集中或多或少会存在冗余特征(重复了包含在一个或多个其他属性中的许多或所有信息)和不相关特征(包含了对手头的数据挖掘任务几乎完全没用的信息)

  • 嵌入方法
    将特征选择作为数据挖掘算法的一部分
  • 过滤方法
    使用独立于数据挖掘任务的方法,在数据挖掘算法运行前进行特征选择
  • 包装方法
    将目标数据挖掘算法作为黑盒,使用类似于前面介绍的理想算法,但通常并不美剧所有可能的子集来找出最佳的属性子集

特征子集选择体系结构

数据挖掘导论 - 第二章:数据 - 笔记_第3张图片
停止搜索判断常常基于以下一个或多个条件:迭代次数、自己评估的度量值是否最有或超过给定的阈值,是否得到某个特定大小的子集、大小和评估标准是否同时达到、搜索策略得到的选择能否改进

特征加权

根据特征的重要性加权,在向量机中有所应用

特征创建

由原属性集创造数量更少更准确的新属性集

特征提取

由原始数据创建新的特征集

映射数据到新的空间

改变数据挖掘的视角,得到更多重要的特征

傅里叶变换

一种用于信号在时域(或空域)和频域之间的线性积分变换。
分析数据集,找出其模式

小波变换

用有限长或快速衰减的“母小波”的振荡波形来表示信号。用该波形被缩放和平移以匹配输入的信号。

特征构造

当原数据集的特征不适合数据挖掘算法时,使用一个或多个特征构造新特征以适应算法

离散化和二元化

将连续属性离散化或二元化以适应某些求关联性的算法

  • 二元化

  • 连续属性离散化
    根据需要的分类值,设置分割点,将问题转化为选择多少分割点以及确定分割点的位置
    非监督离散化当离群点过多时,按等宽的切割方式会降低性能。此时等频率等深的方法将相同数量的对象放入每个区间更为可取。

  • 监督离散化
    :接收的每条消息中包含的信息的平均量
    书中给出一种简单的基于熵的方法
    设k时不同的类标号数,mi时某划分的地i个区间中值的个数,而mij是区间i中类j的值的个数。第i个区间的熵ei由如下等式给出
    数据挖掘导论 - 第二章:数据 - 笔记_第4张图片
    其中,pij = mij/mi 时第i个区间中类j的概率(值的比例)。该划分的总熵e时每个区间的熵的加权平均,即
    数据挖掘导论 - 第二章:数据 - 笔记_第5张图片
    其中,m时值的个数,wi = mi/m 时第i个区间的值的比例,而n时区间个数。直观上,区间的熵时区间纯度的度量。如果一个区间值包含一个类的值(该区间非常纯),则其熵为0并且不影响总熵。如果一个区间中的值类出现的频率相等(该区间尽可能不纯),则其熵最大。

  • 具有过多值的分类属性
    当分类属性有过多值时,减少分类的个数,序数离散处理,标称合并处理

变量变换

变量代指属性。用于变量的所有值的变换。

简单函数

通常将不具有高斯(正态)分布的数据变换成具有搞事(正态)分布的数据。
关注于改变换的效果

规范化或标准化

目的:使整个值的几何具有特定的性质

你可能感兴趣的:(数据挖掘)