数据清洗(data cleaning)

大数据数据清洗(data cleaning)

  • 定义
    • 1. 缺省值
    • 2. 噪声
  • 实际过程
    • 1. 偏差检测(disrepancy detection)
    • 2.数据变换
    • 3.迭代执行步骤1和2

定义

现实世界的数据一般是不完整的,有噪声的和不一致的,数据清洗试图填充缺失的值,光滑噪声并识别离群点,纠正数据中的不一致

所以根据定义,主要有两种值需要进行数据清洗:

1. 缺省值

可以使用回归,贝叶斯或者决策树,通过已有数据建立模型,推测出缺省处的值,然后填充数据,但是这种方法存在过度拟合(可见我的另一篇博客介绍)的问题。

2. 噪声

面对噪点,我们主要有三种技术可以处理:
一种是采用分箱技术(binning),通过考察数据与其附近的值,来使有序数据值变得光滑。 比如用箱中数据的中位数替换箱中每一个数据的值,此过程跟离散化(可见我的另一篇博客介绍)十分相近。
第二种是采用回归,我们不使用确切的值,而使用它们拟合的函数来表达数据,以此光滑数据。
第三种是通过聚类,例如运用密度聚类,孤立出簇外点,这些点就是噪点。

实际过程

1. 偏差检测(disrepancy detection)

导致偏差的因素有多种,包括输入数据的错误,数据退化(out of date),数据表示的不恰当等。
在具体实施中,可以自己找寻数据规律写程序,也可以根据不同的数据类型使用已有的工具。
防止偏差注意事项:
数据表示统一,避免字段过载,保证数据唯一性,避免空值。

2.数据变换

即替换数据值。
已有许多开元工具面对不一样的数据类型可以使用。

3.迭代执行步骤1和2

以上就是数据清洗的基本信息,妹有别的了QAQ

你可能感兴趣的:(data,mining)