数据挖掘中的预处理

【数据清洗】
Part 1:缺失值处理

  1. 忽略元组
  2. 人工填写缺失值
  3. 使用一个全局常量填充缺失值:例如将缺失值用“Unknown”表示
  4. 使用属性的中心度量(mean or median):对于对称数据分布使用mean,秦些数据分布使用median。
  5. 使用与给定元组属同一类的所有样本mean或median:例如将顾客按credit_risk分类,则用具有相同信用风险的顾客平均收入替换income中的缺失值。若给定数据分布是倾斜的,则median是更好的选择。
  6. 使用最可能的值填充缺失值:可以使用regression、Bayes形式化方法的基于推理的工具或者decision tree分类。

Part 2:噪声数据的处理
噪声(noise):是被测量的变量随机误差或方差。
数据光滑技术:

  1. 分箱(binning):通过考查数据的近邻来光滑有序数据集。常见的:用箱均值光滑;用箱中位数光滑;用箱边界光滑。
  2. 回归(regression):用一个函数拟合数据来光滑数据。
  3. 离群点分析(outlier analysis):通过如聚类来检测离群点。

【数据集成】
Part 1:冗余和相关分析:
对于标称数据,我们使用卡方检验发现。对于数值属性,我们使用相关系数、协方差发现。

你可能感兴趣的:(数据挖掘中的预处理)