【产品规划】基于元数据生成质量检查规则(系列三)

上一篇文章中,阐述了实现一个智能化数据清洗工具的思路,其中最关键的是自动构建数据质量检查规则。自动生成数据质量检查规则的基本思路如下:

  • 构建质量检查规则模板库。根据项目过往经验,分行业、分主题构建数据质量检查规则模板库,比如,创建日期模板库就可以包括日期格式检查、非空约束两个规则;
  • 构建元数据的同义词库。利用词典法、机器学习法或人工方法,构建元数据的同义词库,比如,创建、成立、设立等是同义词,后续可以把创建日期、成立日期、设立日期等命名的字段归为一类,均使用创建日期模板生成质量检查规则。相关方法可以参考:https://blog.csdn.net/u014285884/article/details/62038597
  • 自动生成质量检查规则。实际应用当中,根据输入表的字段名称、描述信息,在模板库中匹配出最相似的模板,生成对应模板的规则。此处可以使用文本相似度计算的方法,匹配字段名称与规则模板之间的相似程度,可以参考:https://blog.csdn.net/diye2008/article/details/53762124。 除了根据字段名称和描述进行匹配之外,还需要考虑字段类型、字段值等相关因素,比如,若字段是时间戳类型,则不需要再生成格式检查规则了;若该字段的大部分数值中除了日期外,还有时间内容,则生成的检查规则也要有时间格式的检查。

可以看出,上面三个步骤当中,提炼并沉淀规则模板库、构建同义词库是关键,也是最能体现产品实力的地方,是产品的护城河。在一个行业的实践案例越多,沉淀的规则模板库越丰富;同义词库越丰富,匹配出来的规则越准确,也越能减少人工增加或调整规则的机会,更加体现出质量检查的“智能化”水平。

你可能感兴趣的:(数据治理,产品规划)