本文内容大部分摘抄于《一本书讲透数据治理》及个人部分理解。
数据标准体系是企业数据管理和应用的基础,有利于打通数据底层的互通性,提高数据的可用性,消除数据业务歧义。
企业数据标准一般包含4个方面内容:数据模型标准、基础数据标准、主数据与参考数据标准及指标数据标准。
数据模型标准化是对每个数据元素的业务描述、数据结构、业务规则、质量规则、管理规则、采集规则进行清晰的定义,让数据可理解、可访问、可获取、可使用。
数据模型最大的作用就是反映对业务的理解和定义,帮助企业建立组织内部和组织之间沟通的桥梁。
数据模型设计需要考虑是否符合模型设计规范。应从业务需求、应用范围、数据结构、实体属性设计、实体关系设计等方面来进行规范化评价。
OLAP 一般冗余比较多,以查询分析为主,这种一般都是采用反范式设计,以提高查询效率。更新一般是定时大批量数据插入。
OLTP 则是尽可能消除冗余,以提高变更的效率。因为这种应用无时无刻不在频繁变化。
数据模型设计需要遵循统一的命名规则,包括库名称、数据表名称、字段名称等。
例如:
库名称(数仓通用分层):ODS\DWD\DWS\DIM\ADS
数据表名称:
ods_系统名称简写_表描述_时间周期/(全量、增量)
.......................
字段名称:使用标准数据元、或者建立企业词根库,在词根库提取字段命名。
统一的命名规则能够规范模型,避免名称不一致造成的概念混淆。达到见名思意,且英文命名与中文注释保持一致,同一个英文代表同一个中文,同一个中文且只匹配一个英文。
数据模型中的元数据业务含义要与数据保持一致,模型中的实体、属性含义是否定义清楚、完整、准确;数据模型中的术语、标准、用法、属性和业务规则需要与实际情况一致。
如:销售人员需要一份客户基本信息,你给他一份命名为客户的供应商的基本信息,等联系过后才知道是数据错了。
数据没有错,错的是把数据含义给定义错了,才导致乌龙的发生。
需要考虑数据模型是否方便查阅,布局是否合理,是否方便浏览查阅。模型方面确保大而复杂的模型被分为多个子模型。模型中不包含过多层级的继承关系。
基础数据是系统的数据字典,是结构或功能性的支撑。
常见的基础数据有:性别代码、国家地区、计量单位、学历等。
基础数据标准一般涉及国家标准、地方标准和行业标准。在定义数据实体或元素时可以引用相关标准,再根据企业的需求进行补充完善、更新优化和积累。
基础数据标准常用于对应用或数据仓库的数据字典进行标准化,一般包含业务属性、技术属性、管理属性三个部分。
用来描述基础数据的业务信息,方便业务人员理解,例如:标准编码、标准中文名称、标准英文名称、业务定义、业务规则、引用的相关标准、标准来源和依据等。
描述基础数据的技术信息,支持系统的实现,例如:数据类型、数据格式、长度、代码的编码规则、取值范围等。
描述基础数据的管理信息,支持对数据的管理和操作,例如:标准定义者、标准管理者、标准使用者,以及标准的版本、应用领域、使用系统等。
主数据是用来企业核心业务实体的数据,比如:员工、客户、组织、客户、供应商等。它们具有高业务价值,可以再企业内跨业务部门被重复使用的数据,被称为企业的“黄金数据”。
参考数据是于将其他数据进行分类或目录整编的数据,是规定数据属性的域值范围。参考数据一般以国家标准、地方标准和行业标准为依据,是固定不变的数据。这个与基础数据标准有着一定程度上的重合,可以将参考数据标准与基础数据标准称之为企业基础数据标准。
主数据标准包含主数据分类、主数据编码和主数据模型。
主数据分类是根据主数据的属性或特征,将其按一定的原则和方法进行区分和归类,并建立起一定的分类体系和排序顺序。
主数据编码是为事务或概念(编码对象)赋予具有一定规律、易于计算机和人识别处理的符号,形成代码元素集合。对各类主数据概念的正确依赖于主数据分类,对各类主数据作出唯一表示依赖于主数据编码。
主数据模型即基于主数据属性的逻辑模型或物理模型,包括每个属性的名称、属性、性质、类型、质量规则、取值范围等。
指标标准是在实体基础之上增加了统计维度、计算方式、分析规则等信息加工的数据,是对企业业务指标所涉及指标项的统一定义和管理。
指标数据标准化需要收集指标的基本信息、管理信息、统计规则定义及维度信息等,适用于业务数据描述、数据管理及数据分析和可视化。
指标数据标准的统一能够明确指标的业务含义、统计口径,使得业务部门之间、业务和技术之间形成统一认识。
指标数据标准与基础数据标准一样,包含:业务属性、技术属性、管理属性。
指标业务属性一般包含:指标标准、指标中文名称、指标英文名称、指标主题、指标分类、指标类型、指标定义、业务规则、指标来源、取数规则、统计维度、计算公式、显示精度、相关基础数据标准等。
指标技术属性一般包含:指标来源系统、指标使用系统、数据源表、数据类型、度量单位、取数范围、指标生成频率、指标计算周期、指标取数精度等。
指标管理属性一般包括:归口管理部门、技术负责人、指标权限范围等
站在巨人肩膀上学习