数据预处理

四个科学范式理论的基本内容

  • 第一范式产生于几千年前,是描述自然现象的,是以观察和实验为依据的研究,可称为经验范式
  • 第二范式产生于几百年前,是以建模和归纳为基础的理论科学和分析范式,可称为理论范式
  • 第三范式产生于几十年前,是以模拟复杂现象为基础的计算科学范式,可称为模拟范式
  • 第四范式正在出现,是以数据考察为基础,联合理论、试验和模拟一体的数据密集计算范式,数据被一起捕获或由模拟器生成,被软件处理,信息和知识存储在计算机中,科学家使用数据管理和统计学方法分析数据库和文档,可称为数据密集型范式。

数据的获取

网络爬虫技术是一种按照一定的规则,自动地抓取互联网信息的程序或脚本。可以帮助人们快速高效地从互联网上获取数据。

数据预处理

主要任务分为以下几类:

  1. 数据清洗
    数据清洗即填补空缺值,平滑噪声数据,纠正不一致数据,消除冗余数据。
    平滑噪声数据有分箱法,聚类和回归法。
  • 聚类是将相似的值组织成群或类,那么落在群或类外的值就是孤立点,也就是噪声数据。
  • 回归法可以发现两个相关变量之间的变化模式,通过使数据适合一个函数来平滑数据,即利用拟合函数对数据进行平滑。
  • 分箱法一般可分为两种:
    1)等深分箱法:又称等频率分箱法,即按照对象的个数来划分。就是将对象划分为每块包含大致相同数量样本的N块。每箱具有相同的记录数,记录数称为箱的权重,也叫做箱子的深度。
    2) 等宽分箱法:又称等距离分箱法,即按照对象的值来划分。就是将对象范围划分为等间隔的N块,如果A和B是最低和最高的属性值,那么间隔宽度W就是W=(B-A)/N. 每个箱子的区间范围是一个常量。
    确定了分箱方法后,有三种方式对每个箱子中的数据进行平滑处理:
    • 按箱平均值平滑处理:即对同一箱中的数据求平均值,用平均值代替该箱子中的所有数据。
    • 按箱边界平滑处理:对于箱中的每个数据,观察它与箱子两个边界值的差异,用差异较小的那个边界值代替该数据。
    • 按箱中值平滑处理:取箱子的中位数,用来替代箱子中的所有数据。
  1. 数据集成
    数据集成即通过集成多个来源不同的数据库、数据立方或文件。
    将多个数据源中的数据结合起来存放到一个一致的数据存储中。在数据集成过程中,通常需要考虑多信息源的匹配,数据冗余(相关性一般预示着冗余的存在),数据值冲突等问题。
  2. 数据变换
    数据变换即对原始数据进行规范化和聚类操作。
    数据规范化:
    将数据按比例缩放,使之落入一个小的特定区域,以加快训练速度,消除数值型属性因大小不一而造成数据处理和分析结果的偏差。
    常用的规范化方法如下:
    • 最小-最大规范化
      一般适用于已知属性的取值范围,要对原始数据进行线性变换,将原取值区间[min,max]映射到[new_min,new_max]上。
      v_new = (v-min)*(new_max-new_min)/(max-min) + new_min
    • 零均值规范化
      基于属性的平均值和标准差进行规范。
      v_new = (v-mu) / sigma
    • 小数定标规范化
      通过移动小数点的位置进行规范化,小数点的移动位数依赖于属性值的最大绝对值
      v_new = v / (10^j),其中 j 是满足下式的最小整数:
      max(|v_new|) < 1
  3. 数据规约
    数据规约即通过操作得到数据集的压缩表示,所得到的压缩表示将会小得多,但可以在其上得到与原始数据相同或相近的数据挖掘结果。
    之所以要进行数据规约,是因为被分析的对象数据集往往非常大,分析与挖掘会特别耗时甚至不能进行,而通过规约可以减少数据的大小,并使精简的数据集保持原有数据集的完整性,以提高数据挖掘的效率。
    数据规约的策略一般有:
    • 数据立方聚集
      所谓数据立方体,就是一类多维矩阵,让用户从多个角度探索和分析数据集,通常是一次同时考虑三个因素(纬度)。
      但是数据立方不局限于三个维度,大多数在线分析处理(OLAP)系统能用很多个维度构建数据立方体。
    • 维规约
      通过删除不相关的属性来减少数据挖掘要处理的数据量的过程。
      维规约一般采用属性子集选择和主成分分析来实现。
    • 特征值规约
      又称特征值离散化技术,它将连续型特征的值离散化,使之成为少量的区间,每个区间映射到一个离散符号。这种技术的好处在于简化了数据描述,易于理解数据和最终的挖掘结果。
      特征值规约可以是有参数的,也可以是无参数的。有参数的是指使用一个模型来评估数据,只需存放参数,而不需要存放实际数据。
      有参数的特征值规约方法:
      1)回归:线性回归和多元回归
      2)对数线性模型:近似离散多维概率分布
      无参数的特征值规约方法:
      1)直方图:采用分箱近似数据分布,其中V最优和MaxDiff直方图最精确和最实用
      V最优:给定箱的个数,如果考虑所有可能的直方图,则V最优直方图是具有最小方差的直方图。直方图的方差是每个箱代表的原来值的加权和,其中权等于箱中值的个数。
      MaxDiff: 在MaxDiff直方图中,考虑每对相邻值之间的差。箱的边界是具有β-1个最大差的对,其中β是用户指定的桶数
      2)聚类:在数据规约时用数据的聚类代替实际数据
      3)抽样:用数据的较小随机样本表示大的数据集

你可能感兴趣的:(数据预处理)