数据清理

去除数据中的重复,并将剩余部分转换成标准、可接受格式的处理过程。

1、数据问题

数据缺失

通过手动或规则填充数据;

清除列;

无效数据

错误数据的探测和修正;

根据概率统计学发现数据值异常的记录,如姓名、地址、邮政编码等。

重复记录

合并/清除 规则。处理方式与特定的应用领域无关。

数据源内部或数据源之间数据的不一致性

可定义完整性约束来发现不一致性。也可通过分析数据发现关联,从而保持一致性。

数据迁移工具:通过归一化规则,如把gender字符串都转化成sex。

数据清理工具:使用领域特有知识(如邮件地址)对数据进行清理,通过语义分析、模糊匹配解决数据清理。

数据审计:通过扫描数据发现规律与联系。

2、数据问题的处理方法

1)研究数据、定义错误类型

单数据源?多数据源?

结构级错误?记录级错误?是否符合字段定义和约束?

2)搜索、识别错误

排序、比较、匹配等耗时的运算。

3)修正错误

依赖标准文件、数据字典、数理统计。


参考

http://wiki.mbalib.com/wiki/%E6%95%B0%E6%8D%AE%E6%B8%85%E6%B4%97

你可能感兴趣的:(数据清理)