MDM数据清洗功能开发说明

科技飞速发展的时代,企业信息化建设会越来越完善,越来越体系化,所上的应用系统也就越来越多,业务发展中沉淀了大量的数据,但是这些数据没有为企业带来直观的价值,没有形成企业的数据资产,所以越来越多的企业进入到了数据治理阶段,对于主数据治理的需求越来越明确。

MDM基础数据管理平台是进行清洗和治理企业的主数据,使企业的主数据具有唯一性、准确性、一致性、及时性,通过主数据数据清洗功能将错误数据和重复数据进行清洗,从而保证企业数据能够做到以上那几点,然后再分发至下游系统,使企业信息化更加完善。

1整体介绍

主数据治理方案可以将企业的组织、人员、客户、供应商等高度共享的数据进行统一管理,对需要的业务系统进行同步分发,使数据易采集、易理解、易分析,提高部门与部门之间的沟通效率。 

1.1产品说明 

MDM数据清洗功能开发说明_第1张图片 

MDM基础数据管理系统是对主数据进行同步、清洗、治理、分发全生命周期的一次管理,帮助各个业务系统的主数据统一,保障它们的完整性、一致性,同步就是从主数据源头到主数据过程,治理是到主数据后进行一系列的管理和维护、分发是把治理后主数据分发给各个业务系统包括源头。 

通过以上各个过程的相互配合去从根本上解决企业各个业务系统之间数据不能共享,数据重复、错误等问题。使企业在数据方面更完善,业务进行更顺畅。 

1.2功能说明 

通过数据清洗功能下载主数据导入模板,源头业务系统把数据填写模板中,通过数据清洗导入功能进行导入清洗,检测出数据中欠缺的、重复的、不符合规则数据,通过导出功能把失败的数据导出到Excel中进行数据处理后,在重新导入重新检测直到所有数据成功为止,然后把所有成功的数据导出Excel中,返回给业务源头系统进行源头系统的数据清洗(源头系统添加主数据编码映射),通过主数据任务分发把标准的数据分发给业务,这样就把源头、主数据、下发至业务系统数据保持一致。 

MDM数据清洗功能开发说明_第2张图片  

1.3需求分析 

MDM是对主数据进行同步、清洗、治理、分发全生命周期的一次管理,帮助各个业务系统的主数据统一,保障它们的完整性、一致性,同步就是从主数据源头到主数据过程,治理是到主数据后进行已系列的管理和维护、分发是把治理后主数据分发给各个业务系统包括源头,而本次要扩展的数据清洗功能就是在同步和治理过程中把主数据一些欠缺的、重复的、不符合规则的数据清洗出来。 

2功能设计 

功能设计部分包含大体上的实现思路,数据库表的设计,表关联关系设计,清洗功能相关的配置策略,还有具体的实现步骤。看完设计部分之后大概就能对清洗功能有了一定的了解,知道它能做什么,有哪些功能。 

2.1实现思路 

MDM数据清洗功能开发说明_第3张图片

首先将数据导入到数据清洗功能中,导入过程中会根据配置的校验规则将不符合校验规则的数据的状态标记为失败;处理完错误数据之后,紧接着就会处理重复数据,通过数据巡检规则去判断每条数据之间是否重复,同样,对于重复的数据也会标记为失败状态,最终导入到清洗功能中就可以看到哪些数据存在问题,存在哪些问题,然后就可以导出到Excel表格中进行修改,接下来就是同样的操作,重复多次,直至数据状态全部变为成功,就可以用这些数据去做其它操作了。 

2.2模型设计 

模型设计主要涉及到数据清洗功能相关的数据库表结构以及表与表之间的关联关系,然后就是相关的清洗功能相关的一些配置说明。 

2.2.1清洗表设计 

数据清洗会给每个主数据创建四张表,包括清洗导入表、错误信息表、重复数据表和校验规则关联表。 

清洗导入表用于存放所有导入到数据清洗功能中的数据,无论成功与失败,所有数据都能够通过这张表查到。 

MDM数据清洗功能开发说明_第4张图片

错误信息表用于存放导入过程中不符合校验规则的数据,这个是按照字段来导入的,一条数据的一个字段错误则为一条错误数据。 

MDM数据清洗功能开发说明_第5张图片

重复数据表用于存放导入过程中相互之间重复的所有数据。 

MDM数据清洗功能开发说明_第6张图片

校验规则关联表用于存放那些不符合校验规则的数据关联的校验规则信息。 

MDM数据清洗功能开发说明_第7张图片

2.2.2清洗表关联

你可能感兴趣的:(产品文档,数据清洗,数据治理)