如何保证hive中数据的质量?

首先,数据出现质量问题有哪些原因或者情况?

其次,针对这些原因,制定清洗策略。

一般的数据质量出现问题的有:无效,重复,缺失,不一致,错误值,格式出错,业务逻辑规则有问题,抽取数据程序有错等,另外还有就是统计口径不一致,也会导致看到的数据不是想要的。

根据这些情况,如何清洗?人工,还是编写程序?这个依据数据量大小及挖掘系统要求看吧。如果出现这类型的错误很多,一定要写程序自动清洗,如果只是小量的不影响的,可以忽略不计。

  1. 问题扩展

企业不同的时期业务系统处理方式上逐步优化产生的数据差异:

 产生原因:企业在不同的发展时间,系统处理会有所差异,特别是二开比较多的公司

 解决方案:A.后续规范的数据与前面不规范的数据,看是否可以通过相对应的关系,进行整理统一;

        B.如果上述都不能处理的话,我想还是对前面的一些数据进行分开统计分析,否则两者不一样统计了来会误导业务人员

你可能感兴趣的:(大数据之Hive)