数据治理之主数据建模管理

随着科学技术及企业业务发展,数据的价值越发被重视,数据治理作为提炼数据价值的重要方法,发挥着不可替代的作用。主数据管理作为数据治理的重要工作,是数据治理成果的基础之一。
数据治理之主数据建模管理_第1张图片

图1-1数据治理架构(DAMA)
所谓主数据,是指用来描述企业核心业务实体的数据,是企业核心业务对象、交易业务的执行主体。主数据在整个价值链上被重复、共享应用于多个业务流程的、跨越各个业务部门和系统的、高价值的基础数据,是各业务应用和各系统之间进行数据交互的基础。
由于主数据的高价值、高共享性、相对稳定的特定,因此在建模时既要保证数据通用性、安全性,又要符合企业的业务需求。主数据建模管理包括数据组织建模和操作建模,其中数据组织建模包含分类管理及结构管理,数据操作建模包括数据提取和数据应用两部分。
数据组织建模
一般的主数据分类以业务为核心,包括员工、客户、供应商、产品、物资、会计科目、银行账户等,而更高层次的分类则以实体(所谓实体,是指真实存在的,可以唯一确定的,但不一定存在实物)为基准,可分为人、事、物、组织、信息五大类,每个大类下又包含不同小类,如人包含员工、客户等,物包含资产、物料、账号等。
数据治理之主数据建模管理_第2张图片

不同类别的主数据表结构描述了各自主数据的特点,在设计主数据表结构时,除了数据库设计的基本原则之外,还需从主数据的特点进行分类设计,主数据表字段可以总结归纳为四大类,分别为基础属性、业务属性、公共属性、标签属性。
基础属性:基础属性字段描述了主数据的基本信息,同一类型的主数据的基础属性具有相同的维度,依照不同主题,基础属性可以进一步进行划分,例如人员的基础属性可以分为基本信息(姓名、身份证号等)、生物信息(年龄、性别、血型等)、教育信息(学历、毕业院校等)、职业信息(职位、工作单位等)等维度,不同企业可根据实际业务需求对基础属性进行筛选应用。
业务属性:业务属性与业务具有强相关,不同行业、不同客户的业务属性字段各不相同,以人员为例,公安关注人员的违法犯罪情况,学校关注学生的学习成绩情况,企业关注员工的证书业绩情况,不同企业可根据自身业务需求进行业务属性字段的添加及应用。
公共属性:公共属性不以主题类型变化而变化,公共属性字段以数据操作建模为基础,业务需求为补充进行设计,常见的公共属性字段包括记录编码、入库时间、操作时间、置信度等。
标签属性:标签属性是对主数据的进一步提炼,是利用标签规则对主体的概括性描述,如根据人员的年龄进行年龄段描述、根据上网行为进行上网习惯描述,通过对标签属性与基础属性、业务属性的不同组合(标签画像的构建),可以对主体进行群体划分,从而采取不同的业务策略。
数据操作建模
数据操作建模是根据设计好的主数据表结构进行数据的提取并最终对外提供服务,包括增删改查多种操作,涉及数据治理中的数据标准、数据处理、数据服务等多个模块工作,本文主要说明主数据的提取及应用。
主数据提取需要一方面要考虑尽可能多的提取到主数据相关字段,另一方面要考虑去提取到的数据去伪存真,可以采用“原子化”方式对主题数据进行提取,具体操作方式如下:
数据治理之主数据建模管理_第3张图片

图1-2主数据提取流程
第一步:数据分析,分析主数据来源表,为后续主数据属性提取做准备。
第二步:根据主数据特点进行主键归一化,如员工可以以工号为全局主键,将源表中员工主键切换为工号,确保后续所有提取均以工号作为唯一依据。
第三步:根据不同源表数据情况,设置定时策略将源表中涉及主数据的字段按照key-value格式进行提取到中间表,其中key由主键类型跟主键值构成(如人员是“工号”+工号值),value由属性名跟属性值构成(如“姓名”+姓名值、“血型”+血型值),中间表除了上述字段要求,还应保留源表名、源表数据生成时间等公共字段。
第四步:对第二步中间表中的数据进行置信度计算(依照各属性结果采集的次数、数据源的可靠性、数据生成时间三个维度),取每个属性置信度最高的结果作为最终结果,得到所有主体的所有属性唯一值。
第五步:对第三步得到的结果进行关联操作,得到最终的主题表并提供服务。
数据按照设计的规范进行了提取后,需要对外进行应用,该部分主要工作依靠数据服务模块进行实现。主数据的应用以数据查询为核心、应用统计为辅助,业务提升为目标进行,对于各业务系统,仅支持对主数据的查询操作,禁止对主数据进行增删改操作,在服务期间,会根据业务查询的情况及业务部门的反馈结果,不断对主数据的设计、提取过程进行优化改进,从而最大程度发挥主数据的相关价值。

你可能感兴趣的:(数据治理之主数据建模管理)