数据清洗的步骤

1.数据清洗的基本过程
S1:数据分析。在数据清洗之前,对数据分析,对数据质量问题有更为详细的了解,从而选择更好的清洗方案。
S2:定义清洗规则。通过数据分析,掌握了数据质量的信息后,针对各类问题定制清洗规则,如对缺失数据进行填补策略选择。
S3:规则验证。检验清洗规则和准确性。在数据源中随机选取一定数量的样本进行验证。
S4:清洗验证。当不满足清洗要求时要对清洗规则进行调整和改进。真正的数据清洗过程中需要多次迭代的进行分析、设计和验证,知道获得满意的清洗规则。它们的质量决定了数据清洗的效率和质量。
S5:清洗数据中存在的错误。执行清洗方案,对数据源中的各类问题进行清洗操作。
S6:干净的数据回流。执行清洗方案后,将清洗后符合要求的数据回流到数据源。

你可能感兴趣的:(大数据,数据分析)