【数据挖掘】数据清洗

什么是数据清洗?

数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。

数据清洗的步骤
  • 缺失值的处理
  • 无效值的处理
  • 统一规格
  • 纠正错误和逻辑
  • 删除重复项
  • 转换构造
缺失值的处理

对于缺失值看重要性和缺失率。如果重要性高的,就需要从其他渠道补全,根据经验填满。如果没办法处理,就去除该数据,并在结果中说明。如果重要性低的,简单填充就好了,或者直接去除。

填充缺失内容
  • 以业务知识或经验推测填充缺失值
  • 以同一指标的计算结果(均值、中位数、众数等)填充缺失值
  • 以不同指标的计算结果填充缺失值(比如不知道生日但是知道身份证号)
无效值的处理

去除就好。

统一规格

由于数据源系统分散在各个业务线,不同业务线对于数据的要求、理解和规格不同,导致对于同一数据对象描述规格完全不同,因此在清洗过程中需要统一数据规格并将一致性的内容抽象出来。

纠正错误和逻辑

在多数据源的环境下,很可能存在数据异常或冲突的问题。去除不合理值,修正矛盾内容。

删除重复项

排序和判断相似度。

转换构造

数据变换是数据清理过程的重要步骤,是对数据的一个的标准的处理,几乎所有的数据处理过程都会涉及该步骤。数据转换常见的内容包括:数据类型转换、数据语义转换、数据值域转换、数据粒度转换、表/数据拆分、行列转换、数据离散化、数据离散化、提炼新字段、属性构造、数据压缩等。

待学。。

你可能感兴趣的:(Algorithm)