数据质量分析之信息调研

这两周在项目组参与了共计70多张表的信息调研,同时负责将调研数据进行整理,形成分析报告并与局方进行交流。这些表是10多个政府部门共享的数据,调研中涉及到如下一些方面:

  • 表、字段调研,也就是整理数据字典,以固定的格式整理到excel中,后续可以做为元数据的采集基础;
  • 数据质量分析,包括完整性、唯一性、时效性、准确性和一致性5个方面,由于时间仓促,主要从表数据记录数、字段的非空约束、唯一性、业务数据的时效性几个方面进行了数据提取和分析。
  • 以上述数据结果为基础,对这些表的建模主题进行了初步划分。

通过这次实际参与数据质量分析,有以下几点体会:

  • 信息调研的价值。除非是对整合自己熟悉的信息系统,否则信息调研远比阅读数据字典能更加快捷、深刻地理解数据,信息调研的流程、模板为理解数据提供了手段。
  • 缺少明确的数据质量校验规则。虽然有5类规则以及案例可供参考,但实际操作中,每个人对哪些字段要采取哪些规则会有不同的判断,导致数据质量分析的力度差异性较大,需要提炼出可执行性更强的校验规则。
  • 信息调研的手段需要升级。全手工的信息调研,实际操作中主要是excel的复制、粘贴,以及写SQL、执行和判断。在这个过程中,除了决定要执行哪些校验规则以及判断执行结果外,其它都是重复性的工作,费时费力。而往往由于要手工操作的内容太多,尤其是每个字段可能会有若干项校验规则,会导致花费较少的精力去判断结果,以及减少要执行的校验规则。因此,需要考虑开发一些数据质量分析的工具,比如,通过界面选择要分析的表、字段以及校验规则,后台自动生成脚本并执行,将最终的结果显示出来,能大大加快调研的效率。
  • 数据质量分析的全面性不够。目前的分析仅仅是从字段的完整性、惟一性、准确性等方面度量数据质量,但并没有对数据的逻辑正确性有很好的检验手段,比如,法人的区域代码与实际地址对应错乱。另外,现在的数据质量仅是体现了是否有空值、是否有重复等,但没有对空值的程度、重复的程度进行量化。

你可能感兴趣的:(数据治理)