企业数据治理(1)之道与术

        企业数据治理之道与术首先介绍了企业数据治理的背景,企业数据治理的需求和治理原则,然后从数据治理的标准体系、数据架构和数据治理的过程展开说明如何进行数据治理,最终通过一个集团企业的数据治理案例,把企业如何根据自身情况,进行有效的数据治理阐述清楚,理论结合实际,使读者能够直观的了解企业数据治理的全过程。

企业数据治理(1)之道与术_第1张图片

1.企业数据治理背景

数据治理的发展由来已久,伴随着大数据技术和数字经济的不断发展,随着企业拥有的数据资产规模持续扩大,数据治理得到了各方越来越多的关注,被赋予了更多使命和内涵,并不断取得长足发展。GB/T35295-2017《信息技术大数据术语》将数据治理定义为对数据进行处置、格式化和规范化的过程。认为数据治理是数据和数据系统管理的基本要素,数据治理涉及数据全生存周期管理,无论数据是处于静态、动态、未完成状态还是交易状态。

企业数据治理是释放数据要素价值的基础和前提,是数据要素资源优质供给的核心保障。近年来,提升数据治理能力逐渐成为企业关注的重点,尤其是国有大中型企业,如何通过多样化的数据治理手段激活与释放数据要素价值,成为企业数字化转型的重要环节。随着数据时代的来临,数据量的暴涨为企业数字化提供了基础支撑,大量的业务数据能够被采集、存储并最终创造经济效益。新变化为企业带来新机遇的同时,也带来了诸多挑战。很多企业在前期的信息化建设中,缺乏统筹规划,为解决当下业务问题而按照垂直的、个性化的业务逻辑独立采购与部署IT系统,导致企业内部形成多个数据孤岛。数据不规范、不一致、难以互联互通成为普遍问题,阻碍企业去充分发挥数据价值。这种先建设后治理的常态,使得数据治理越来越受到企业的普遍重视,另一方面,新兴技术与应用场景的快速落地,也使数据治理需求在加速攀升。

企业数据治理(1)之道与术_第2张图片

企业数据治理演变历程

2.企业数据的类型

按照常用数据类型分类:

  1. 元数据:是描述数据的数据(描述性标签),描述了数据(如数据元素、数据模型)、相关概念(如业务流程、应用系统、软件代码、技术架构)以及他们之间的联系(包括实体型组织、客户、人员基本配置数据等)。
  2. 主数据:描述企业核心实体的一组一致而统一的标识符和拓展属性,实体可包括现有或潜在客户、产品、服务、员工、供应商、提供商、层次结构和会计科目表等(包括数据标准、业务术语、指标定义等)。
  3. 实时数据:是在收集后立即传递的信息,所提供信息的及时性没有延迟(实时OLAP场景下的数据)。

按照数据格式分类:

  1. 结构化数据:可以存储在传统的关系型数据库中,用二维表结构来表达实现的数据,可以用关系型数据库存储(Excel表格、SQL数据库里的数据)。
  2. 非结构化数据:形式相对不固定,不方便用数据库二维逻辑表来表现的数据,通常存储在非关系型数据库中,数据量通常较大(文本、图片、HTML、各类报表和音频、视频)。
  3. 半结构化数据:介于结构化与非结构化之间,半结构化数据可以通过灵活的键值调整获取相应信息,且数据的格式不固定(日志文件、XML文档、JSON文档、Email等)。

按照数据来源分类:

  1. 企业内部数据:在企业内部经营中产生的数据,在企业的业务流程中产生或在业务管理规定中定义,受企业经营影响。
  2. 企业外部数据:企业通过公共领域合规获得的数据,其产生、修改不受公司影响。

3.企业数据治理需求

企业历经数字化转型不同阶段时,需通过数据治理解决数据在生产、管理和使用中的问题,而数据治理的需求与复杂度也会随着企业数字化程度提升而增加。

企业数据治理(1)之道与术_第3张图片

不同企业数字化程度下的数据治理需求

4.企业数据治理的原则

  1. 战略重视、组织保障。规划数据治理中长期路线图、明确职责分工、建立数据治理组织架构,监督各项任务执行情况、解决组织间矛盾及冲突、及时调整规划内容。
  2. 责任共担、协调配合。明确各部门的职责及任务,制定工作原则,明确各自任务及边界,建立配合机制,共同确保数据治理整体任务的实现和目标的达成。
  3. 业务驱动、问题导向。基于业务活动中发现的数据不标准、不一致、不准确、不可信、用数困难等问题,通过业务驱动开展计划、控制、开发、运营等数据治理活动,并通过数据治理考核机制来监督落实。
  4. 流程嵌入、实用落地。数据治理是管理、业务、技术三位一体的系统工程,将数据治理的活动、工具、输入输出物、人员角色等嵌入到管理、业务、技术的关键流程中,并达成用户体验好、自动化程度高、简单适用的成效。
  5. 服务导向、量化评价。以服务为核心理念,为数据应用提供可用、可信的高质量数据,满足数据需求、赋能业务发展。设置量化指标评价数据治理的工作成效,反映数据治理存在的成绩和不足,提出针对性改进优化措施。

5.数据治理标准体系

数据治理标准体系框架包括基础共性、数据基础设施、数据资产管理、数据流通、数据安全5个方面:

企业数据治理(1)之道与术_第4张图片

  1. 基础共性:基础共性标准主要用于统一数据治理相关概念,为标准体系其他部分的建设提供支撑合参考,包括术语、参考架构、通用要求、评测评估。
  2. 数据基础设施:数据基础设施标准主要用于规范数据治理工作涉及到的平台、工具、软件系统等,为数据资产管理、数据流通、数据安全提供技术支撑,包括数据库、大数据平台、数据资产管理、数据分析挖掘、数据流通、数据安全。
  3. 数据资产管理:数据资产管理标准主要针对组织的核心数据资源进行管理、共享、应用和价值评估,包括基础数据、主数据、元数据、数据质量、数据架构、数据开发、数据应用、数据共享、数据价值评估。
  4. 数据流通:数据流通标准主要对跨组织的数据开放、交易、跨境进行规范和约束,保证数据在数据供应方和数据需求方之间的流通合规有序。
  5. 数据安全:数据安全标准主要用于规范数据资产的管理、应用、共享、开放等环节合法、合规,并确保数据始终得到有效保护。

6.数据治理数据架构

数据治理的数据架构包括数据标准管理、数据集成管理、元数据管理、主数据管理、数据资产管理、数据质量管理、数据模型管理、数据服务与数据安全管理模块。依托于企业对数据治理的侧重点不同,数据治理体系与架构也会根据企业所在的行业特点、经营性质及信息化程度的不同而有所差异。

企业数据治理(1)之道与术_第5张图片

7.企业数据治理过程

企业数据治理的初步目标旨在消除数据的不一致性,建立规范的数据标准,提高组织的数据质量与实现数据广泛共享,最终将数据变为宝贵资产,应用于企业的经营、管理与决策中。当下,让数据可知、可用、可管,充分发挥数据资产的价值已成为企业共同的数据治理目标。

企业数据治理(1)之道与术_第6张图片

 企业数据治理过程

8.企业数据治理案例

下面以某集团企业数据治理项目为案例,从数据现状评估、数据情况分析、主数据识别、主数据分类、数据治理、数据分布维护及流转等步骤,对企业主数据进行治理及应用。

企业数据治理(1)之道与术_第7张图片

 总体规划

8.1 现状评估

在现状评估阶段,以现场访谈、调查问卷和资料分析三种方式展开,在集团各位领导的全力支持、各部门的积极配合参与下,完成了如下工作:

工作方式

工作描述

现场访谈

项目组对集团信息部、A省分公司信息部、G省分公司信息部、G省分公司设计院等数据资源管理相关部门迚行了超过数十人次的现场访谈,获得了大量有价值的数据资源管理相关的现状信息

调查问卷

项目组对A省分公司所有多个业务部门迚行了数据资源管理问卷调研,本次问卷调研结果为项目组提供了大量有效的一手资料。

资料分析

重点分析了及各业务管理流程等三十多个数据资源管理相关的制度、觃范、管理、技术等资料。

8.2 数据情况

  • 系统特点:全网级、交易型、分级部署;
  • 主数据范围:全网客户、物资、设备、资产、主要合同、项目及相关关系信息;
  • 主数据数据量:G省公司:3000多万客户、设备、资产等,总计近1亿主数据;
  • 接口服务类型:实时服务、准实时更新、实时广播、批量加载;
  • 实时、准实时应用场景:客户、供应商、设备、资产等主数据实时更新;
  • 服务交易量:220万笔/日;
  • 系统平台:OracleWeblogic,OracleRAC,IBMAIX;
  • 系统开发模式:基于产品二次开发。

8.3 主数据识别

主数据判断标准

解释

标准值

是否独立存在

主数据应可独立存在,不依赖亍其他对象

是否由不同业务部

门共享

主数据和部分业务数据一般作为不同业务部门之间的共享数据

是否属亍业务操作的主要对象

主数据一般是业务操作的主要对象,不随业务操作变化,也不是结果或状态

是否存在多个特征属性(并非编码)

主数据作为业务操作的主要对象,一般存在很多属性,用亍区分不同操作对象,不同亍普通的编码表。

是否随业务操作改变

主数据的变化主要依赖亍业务实体自身属性变化,不依赖亍业务操作,而业务数据则不然。

是否完全不变化

虽然主数据的变化应该少亍交易数据,但是完全不变化的数据元素不应该判定为主数据,至少不需要施行主数据管理

是否较长生命周期

通常主数据会在长时间内被使用,它的生命周期较长,因此数据

元素的生命周期可以用来作为判定它是否是主数据的标准之一

值域是否是主数据

主数据是实体级,而不是属性集

8.4 主数据分类

企业数据治理(1)之道与术_第8张图片

  • 根据企业主数据模型设计结果,主数据包括6大主题域共28类数据集;
  • 划分主数据的产生、使用业务系统;
  • “@”表示业务系统是相应数据的产生者;“√”表示业务系统是相应数据的使用者;
  • 产生系统:数据产生者,以实时、准实时方式向平台发起主数据变更请求;
  • 平台实现主数据集中管理,并以实时、准实时方式接收产生系统的主数据变更。

 8.5 数据治理

   数据服务(主数据访问服务)

  1. 针对不同主题域的数据对授权用户提供实时、统一的联机交易服务
  2. 提供按条件查询指定主数据的功能,当查询结果集过大时,可分页返回结果
  3. 提供主数据新增服务,进行主数据唯一识别,并对数据进行校验
  4. 提供主数据更新服务,进行数据校验并防止并发冲突
  5. 提供主数据删除服务,对过期或错误数据做失效处理并防止并发冲突
  6. 提供主数据锁定/解锁/合并服务
  7. 提供主数据关联关系创建、修改、删除、查询服务;
  8. 提供主数据编码分配服务并记录相应的编码分配日志。
  • 批量数据加载(集中批量加载主数据)
  1. 提供批量新增、修改、删除主数据的功能,记录相关批量数据加载日志;
  2. 对准实时交易未成功的操作,并定时、手动集中进行重新加载。
  • 准实时数据加载(准实时加载主数据信息)
  1. 提供准实时数据访问功能,接收来自各业务系统时效性要求不强的准实时主数据新增、修改、删除请求;
  2. 省级数据资源管理平台准实时接收处理网级平台发布的主数据变更消息。
  • 导入/导出按照指定条件及格式导入/导出主数据信息
  1. 提供按照指定条件和预定格式进行交互式主数据导入/导出的功能;
  2. 记录数据导入/导出日志,提供按条件查询数据导入/导出记录功能。
  • 订阅发布(保持主数据在平台内部及与各外围系统间的同步更新)
  1. 实现针对特定主题数据的发布功能,当该主题下相关交易执行成功时,广播该交易结果给该主题所有订阅者;
  2. 实现主题订阅的管理功能,可以配置和查询每个队列包含的主题和订阅者;
  3. 实现消息队列管理功能,包括查询队列、清除队列、启动及终止队列。
  • 数据校验(对主数据变更进行数据校验)
  1. 对服务接口及批量接口进行数据格式校验,数据格式校验包括数据类型校验、长度校验、值域校验、精度校验、空值校验等;
  2. 对服务接口及批量接口进行业务逻辑校验,业务逻辑校验包含信息有效性校验、时效性校验、完整性校验、以及特殊逻辑校验。
  • 审计功能(基于主数据访问日志提供用户审计)
  1. 记录实时服务、准实时加载、发布、批量数据加载以及操作日志;
  2. 记录主数据的创建时间、源系统数据时间、最后更新时间、最后更新系统、最后更新用户、交易流水号等信息;
  3. 提供日志查询功能,跟踪指定主数据变更历史。
  • 数据服务接口
  1. 实时服务:外围系统直接通过数据治理平台提供的WebService实时服务访问数据
  1. 接口方式:WebService(CRUD等操作)
  2. 传输方向:集成平台->数据治理平台->集成平台
  1. 实时广播:数据治理平台利用JMS等协议将主数据变更信息准实时分发到目标系统
  1. 接口方式:消息队列异步传输
  2. 传输方向:数据治理平台->集成平台
  1. 准实时接收:通过JMS等协议异步接收源系统发送数据治理平台的数据
  1. 接口方式:消息队列异步传输
  2. 传输方向:集成平台->数据治理平台
  1. 批量模式:通过ETL方式实现数据的批量传输
  1. 接口方式:ETL批量传输(数据库抽取)
  2. 数据内容:主数据变更消息
  3. 传输方向:同级(总部数据治理平台<->总部数据中心,省级数据治理平台->省级数据中心)

 8.6 数据分布、维护及流转

操作

主数据类别

主数据分布

维护地点

数据流转

查询

全部主数据

总部/省级平台

总部/省级业务系统连接到同级平台

场景一

变更

集中管理类主数据

总部级平台+所有省级平台

总部级业务系统连接到总部级平台

场景二

分级管理类主数据

总部/省级平台

总部/省级业务系统连接到同级平台

场景三

全部主数据

数据中心

数据中心定时ETL批量抽取

场景四

  • 场景一:总部级/省级查询主数据
  • 场景二:总部级维护集中管理类主数据
  • 场景三:总部级/省级自主维护分级管理类主数据
  • 场景四:数据治理平台传输主数据信息到总部数据中心

8.7 总部、省两级各类主数据分类、分布及维护

企业数据治理(1)之道与术_第9张图片

你可能感兴趣的:(企业数据治理系列,大数据,人工智能,数据库,数据分析,数据挖掘)