数据治理平台覆盖了从标准、设计、采集、开发到使用,再到交付的全数据治理流程,为组织提供了一站式数据治理运营平台,可满足数据共享交换、数据开发、数据运营多种应用场景,并通过构建数据工厂,实现数据治理的标准化、流程化与组件化。
数据标准规范了业务术语,元数据,参考数据,基础数据,指标数据的规范定义、获取原则、管理要求等。 包括设计基础类和分析类数据标准,制定数据标准管理制度和流程,明确数据标准管理组织和职责,以明确的组织、职责、流程设计为前提,调动业务部门、技术部门和系统技术团队共同参与数据标准设计,建立全局数据标准流程,制定总体落地计划,推动数据标准落地执行,增强内部对数据标准的理解,指导信息化建设中对数据标准的参照。
数据标准管理体系主要包含数据标准管理、落地实施机制、及数据标准管理平台维护三部分。
平台通过对数据标准管理、落地实施机制、及数据标准管理平台维护三部分进行数据资源管理,制定数据标准管理制度和流程,明确数据标准管理组织和职责,以明确的组织、职责、流程设计。落地实施机制从规范推广、技术平台支撑两方面保障;数据标准平台维护主要包括建设数据标准技术平台,支撑数据标准日常管理工作两方面。
Ø 数据标准管理机制设计
设计基础类和分析类数据标准,制定数据标准管理制度和流程,明确数据标准管理组织和职责,以明确的组织、职责、流程设计为前提,调动业务部门、技术部门和系统技术团队共同参与数据标准设计,建立企业级数据标准流程,制定总体落地计划,推动数据标准落地执行,增强对数据标准的理解,指导信息化建设中对数据标准的参照。
Ø 数据标准分类规范
数据标准是对数据的名称、含义、结构、取值等信息的统一定义,达成对数据的业务理解、技术实现的一致性。
基于数据模型理论将数据标准延伸至5个分类,涵盖技术、业务多个视角。
业务术语:从一致性、通用性等方面统一业务术语定义。
数据项标准:用来描述实体的某种属性,包含数据项的名称、编号、别名、简述、数据项的长度、类型、数据项的取值范围。
参考数据标准:识别参考数据,并建立参考数据的统一标准样例,使参考数据可在不同系统中被使用而保持统一标准值。
主数据标准:主数据编码是应用系统中的重要数据类型之一,通常用来描述业务操作的具体对象及其特征,注重唯一性,特征一致性,稳定性及有效性。
唯一性:在一个系统,一个平台甚至整个范围内同一主数据编码要求具有唯一的识别标志(代码,名称,特征描述等),用以明确区分业务对象,业务范围和业务的具体细节
特征一致性:主数据在不同系统中,均按统一标准出现
稳定性:主数据相对稳定,本身属性不会随交易过程而被修改
有效性:贯穿该业务对象的全生命周期过程,只要该业务对象存在,则此数据不会丧失有效性
指标数据标准:需要收集指标的管理信息、业务定义、以及维度定义,需要兼顾通用性和个性化,个性化方面支持各使用部门个性化定制
Ø 数据标准设计规范
以分析型应用建设和操作型应用集成为导向,两套方法结合,建立数据标准设计体系
分析型应用建设导向:以分析应用指标范围为依据,重点结合业务战略及管理要求,自上而下追溯数据源,聚焦数据标准范围。
操作型应用集成导向:自上而下的原则,基于实际业务流程及操作,重点识别跨业务、跨流程的集成点及关键步骤,分析提炼共享数据,完成业务流程和应用共享的数据映射,删除冗余、非重点数据,精简数据标准建设范围。
数据元管理主要包括数据元新增、数据元导入、数据元发布、数据元修改、数据元删除、数据元停用、数据元检索等功能。同时支持数据元版本管理及版本之间的差异核对功能以及支持基于基础库、主题库的元数据快速创建标准数据元,并建立和相关元数据的关联关系。
标准代码配置支持代码的分类、标准代码项的新增、导入、导出功能,提供了标准代码维护的能力;可关联到国标、地标代码字典,为数据的规范性提供了更加详细的描述,为后续的数据质量、数据标准等工作提供支撑。
标准数据元具有唯一的编码(标准代码),按照实际的业务领域进行分类之后,可以形成带有业务领域特征的相关编码,比如“FR00001”代表法人相关的数据元标准代码。
数据元的值有部分需要满足固定格式的标准,治理过程中需要通过固定的值组成规则来规范数据源值的格式,例如身份证、电话号码、电子邮箱等格式。包括通用规则及各部门根据自身需求实际制定的规则,常用规则配置会针对公共数据的特性内置部分常用的规则,同时提供了规则的配置修改能力。
按照数据整合的层次结构、主题域划分,需要实现各层的各种对象,如表、存储过程、索引、数据链、函数和包等的管理。清晰的表示各层次结构之间的数据流程、各对象之间的关系,以及向外提供的各类数据服务的信息。
元数据内容涉及到整个大数据资源平台的各个数据环节,包括数据采集、逐层加工稽核,数据服务到最终应用展现的处理,元数据管理贯穿了整个流程,并与各环节实现有效互动。
按照元数据的定义分类,综合价值分析系统元数据管理分为业务元数据、技术元数据、管理元数据三类。其中:
(1)业务元数据
l 使用者的业务术语所表达的数据模型、对象名和属性名;
l 访问数据的原则和数据来源;
l 系统所提供的分析方法及公式、报表信息;
l 对业务元数据来源的管理和差异性对比;
(2)技术元数据
l 系统结构的描述(各个主题的定义,星型模式或雪花型模式的描述定义等);
l 整合数据层的机构单位的数据模型描述(以描述关系表及其关联关系为形式);
l 对数据稽核规则的定义、汇总数据层模型描述与装载描述(包括维度、层次、度量以及相应事实表、概要表的抽取规则);
(3)管理元数据
系统内部用户的数据处理操作规则,包括抽取、转换、加载、汇总等各类操作的用户权限、操作时间窗管理、异常处理规则等;
外部访问用户(主要针对该系统对外提供的数据服务)的操作规则和方式,包括所提供的数据服务接口、数据访问方式、操作;
各类用户的操作记录日志,包括操作用户、登录方式、操作对象、持续时间、操作类型等相关信息。
为了保障元数据管理目标的顺利达成,需要从组织架构层面建立专业的元数据管控组织予以保障,确保元数据管控要求得以落实、制度得以执行。
元数据维护管理流程是以需求提出作为开始,经历规划设计、开发实施、需求验收等项目阶段的元数据建立和校验,最后实现元数据的发布和运维管理。在这些阶段中,元数据管控组负责元数据信息的全生命周期流程的管理和监控。
元数据管理包括元数据基础数据管理和元数据应用,由元数据自动获取、元数据检索、数据模型管理、元数据管理、血缘关系等功能组成等。
Ø 元数据管理功能架构
Ø 元数据自动获取
对元数据获取数据源以及这些数据源之间的关系进行集中登记管理,并形成自动获取数据源的全局视图,实现元数据自动获取数据信息。
要实现元数据的自动获取,需要在集成的元数据平台中配置自动获取策略和调度时间等,使元数据能够按预设的调度策略触发相应的元数据自动获取过程,满足元数据自动获取的时效性。
调度策略包括时间周期触发、事件触发两种方式。例如,在每周星期一凌晨00:00到01:00之间触发数据资源平台元数据的自动获取过程,或者在数据处理程序更新后12小时内触发相应的映射关系元数据自动获取过程。
Ø 元数据维护
包括元数据的定义、变更及版本管理,对主机信息、数据库信息、用户信息、数据对象信息、业务规则信息、加工逻辑等进行维护和管控。
Ø 元数据扫描
支持以手动或定时的方式扫描指定的数据库资源,并提取和解析相关的信息在比较扫描数据和原有数据的差异后自动将差异数据维护到指定的元数据目录。
Ø 元数据检索
在元数据管理首页用户通过输入关键字后,系统采用全文检索的方式迅速查找和关键字匹配的权限范围内的元数据信息,并将信息返回给用户。用户能够通过展示的路径信息快速定位到元数据组织树上的节点。
Ø 元数据版本
版本管理分为元数据对象版本管理与基线版本管理两种类型。
元数据对象版本:对元数据的每次提交形成版本(上一版本形成历史版本),提供历史版本间,历史版本与当前版本对比功能;
基线版本,对某一阶段产生的元数据对象形成数据集,提供不同阶段产生的数据集的版本比较
Ø 权限管理及查询
统一实现数据库的访问和操作管控,对用户进行角色权限、对象权限、数据权限等方面的管控和查询;
Ø 元数据的导入/导出
在系统层面实现元数据的导入/导出功能,以保证数据模型、数据对象能够灵活的迁移,支持模型间的检查和比对,以便于数据模型的维护和扩展。
平台提供血缘分析功能,通过可视化的图形界面,对数据资产及所有来源的关联数据资产进行展示,可帮助用户分析数据来源和定位数据质量问题。
Ø 元数据血缘分析
元数据分析算法包括以网状模式展示对象等血缘关系和以父子依赖关系展示对象等有向血缘关系。
数据质量管理主要包含对数据完整性、准确性、鲜活性、权威性的分析和管理,并对数据进行跟踪、处理和解决,实现对数据质量的全程管理,提高数据的质量。
能够提供规则配置、质量监控、问题处理等功能,及时发现并分析数据质量问题,不断改善数据的使用质量,从而提升数据的可用性,挖掘数据更大的价值。