学习笔记(三)数据预处理之数据清理

数据预处理

1概述。为了提高数据的质量,数据质量涉及准确性、完整性、一致性、时效性、可信性(反应多少数据是用户信赖的)和可解释性(反映数据是否容易理解)。数据预处理的主要步骤:数据清理、数据集成、数据归约和数据变换

数据清理:例程通过填写缺失的值,光滑噪声数据、识别或删除离群点,并解决不一致性来“清理”数据。数据集成:集成多个数据库、数据立方体或文件。数据归约:得到数据的简化表示,它小但能够产生同样的分析结果。(包括维归约和数值归约)。规范化、数据离散化和概念分层产生都是某种形式的数据变换

2数据清理。

数据清理:试图填充缺失值、光滑噪声并且识别离群点、纠正数据中的不一致。

缺失值的处理方法:

  1. 忽略元祖:当缺少类标号时常这样
  2. 人工填写缺失值:费时,数据量超大时不靠谱
  3. 使用一个全局常量填充缺失值:例如NA,+替换,但是如果全用NA可能会形成一个有趣的概念,他们拥有相同的值。
  4. 使用属性的中心度量(均值、中位数)填充缺失值:对于对称数据使用均值,而倾斜数据的分布应该使用中位数填充。
  5. 使用与给定元祖组同属一类的所有样本的属性均值或中位数
  6. 使用最可能的值填充缺失值:利用回归、贝叶斯形式化的方法基于推理工具或决策树归纳确定。

注意:缺失值并不意味着数据有错误。

噪声数据:是被测量的变量的随机误差或方差。 ,

光滑”数据、去掉噪声的方法:

  1. 分箱:通过考察数据的“近邻”值来光滑有序数据值,通过分箱,来进行局部光滑。有:用箱均值光滑、用箱中位数光滑、用箱边界光滑(给定箱中的最大和最小值同样被视为箱边界)。一般而言,宽度越大,光滑效果越明显。
  2. 回归:用函数拟合数据来光滑数据。
  3. 离群点分析:可以通过聚类来检测。落在簇以外的被称为离群点。

许多数据光滑的方法也用于数据离散化和数据归约。

关于数据清理的总结:

   第一步需要偏差检测,如何进行检测,需要用到元数据(关于数据的数据)。必须警惕编码不一致和数据表示不一致的问题。字段过载是另一种错误源,通常是由于:开发者将新属性的定义挤进已经定义的的属性未使用(位)部分。

根据唯一性规则(给定属性的每个值都必须不同于该属性的其他值)、连续性规则(属性的最低和最高值之间没有缺失值,并且所有的值必须是唯一的。例如,检验数)和空值规则(说明空白、问好、特殊符号或指示空值条件的其他串的使用,以及如何处理这样的值)考察数据。

帮助进行偏差检测的工具有:数据清洗工具(简单的领域知识)、数据审计工具(可以使用统计分析)、数据迁移工具(支持数据变换)、ETL(提取、变换、装入)工具允许在GUI说明变换。但是功能有限。

Potter’s Wheel、SQL等扩充和使用时非常有必要的,有效的表达数据清理的具体要求的算法。更好的进行偏差检测和数据变换(纠正偏差),随着对数据的了解和加深,不断更新元数据以反应这种知识很重要。

推荐阅读:数据挖掘概念与技术

 

你可能感兴趣的:(概念与基础知识)