数据挖掘之数据预处理

第三章

为什么要进行数据预处理?

  1. 数据库易受噪声、缺失值和不一致数据的侵扰
  2. 数据库太大,且多半来自多个异种数据源
  3. 衡量的标准是数据质量

数据质量

数据质量的因素

都比较好理解,就不一一说明了。

数据预处理的主要步骤

数据预处理的主要步骤

数据清理

处理缺失值的方法

  1. 忽略元组
  2. 人工填写缺失值
  3. 使用一个全局常量填充缺失值
  4. 使用属性的中心度量
  5. 使用与给定元组属同一类的所有样本的属性均值或中位数
  6. 使用最有可能的值填充缺失值

什么是噪声?

噪声是被测量的变量的随机误差或方差。

如何处理噪声数据——数据光滑技术

数据光滑技术

数据清理的步骤

  1. 偏差检测
  2. 数据变换

你可能感兴趣的:(数据挖掘之数据预处理)