【数据治理-1】

数据治理-1-为什么进行数据治理&数据治理的关键点

  • 数据治理-1-为什么进行数据治理&数据治理的关键点
    • 1.为什么要进行数据治理
    • 2.数据治理的四个关键点
      • 1.定标准
      • 2.建模型
      • 3.沉数据
      • 4.促开放
    • 3.数据治理的核心要素和内容

数据治理-1-为什么进行数据治理&数据治理的关键点

1.为什么要进行数据治理

  • 数据治理的核心目的是:由于数据不标准不规范或者数据不一致,已经影响到我们日常的业务流程和业务运作。
  • 数据驱动:通过采集整合完毕的数据真正成为数据资产,能够发挥数据的价值,但是在采集完毕数据以后,发现采集整合完毕的是数据质量不高,这会直接导致我们数据资产是没有价值的。
  • 上面的数据资产没有价值的问题,不是简单的是我们去搭建一个大数据平台或者数据中台就能解决的问题,拿我们自身来做比喻,大数据平台或者数据中台类似于我们的骨架,我们需要骨架的同时,也需要新鲜的血液,并且是动态的血液,相对于数据来说,需要去保证数据的高质量高标准高一致性和高实时性;如果这块得不到保障,那么我们骨骼下面就全是墨水,而不是新鲜的动态的血液,这样强行使用数据中台的话,反而比不用数据中台可能效果还差。
  • 为什么要去做数据治理
    • 第一层面,需要解决的是:在单个系统单个业务对象的管理,它本身的标准规范相关的问题 ,比如说:供应商编码的制定,对于商城下面的6万多家门店来说,统一使用门店88码的标准规范。

      • 之前出现的问题:
        • 问题一:门店A有两个名称:门店科技股份有限公司,门店A有限公司,这样会基于两个门店产生一系列订单,但是是基于这两个门店的,其实是一家门店,这样的话,就需要后面再对类似于这样的门店进行数据的合并工作。这样就比较麻烦,我们需要将规则先指定出来,供应商们统一遵守,就减少了类似这样的工作。
        • 问题二:供应商的申请变更作废等信息,需要有数据流程的支撑。
      • 将上面的这些问题处理好以后,我们才能保障对单个系统单个业务对象真正管理好。
    • 第二层面 ,需要解决是:垮了多个系统的单个对象的管理,比如:商场这边会产生订单数据,这个订单数据我们会同步给HCC系统,还要同步给其他系统;

      • 问题一:这块需要考虑:怎样去管理跨了多个系统的同一个业务对象数据,怎样去确保他的源头尽量是统一的,怎样去确保这份数据在多个系统传输落地的过程中它是一致的。
        • 如果数据的一致性得不到保障的话,那么就会出现这样的问题:订单数据同步给HCC系统和A系统后,HCC系统处理完此订单以后,又拿着处理完的订单去A系统获取相关的信息,然后A系统根本没有此订单相关信息,这个就是一个典型的,同一个数据对象在垮了多个系统的时候,他的一致性和实时性没有得到保证。
      • 问题二:数据的源头不统一,订单数据同步给了HCC以后,HCC系统随意更改订单的类型,或者HCC系统也能更新订单状态等,导致订单数据多个源头多个归口在管理,此时,由于底层的基础数据的重复不一致,自然引起上层业务大量的问题。
    • 第三个层面,需要解决的是:垮了多个系统的多个业务对象,它本身之间的数据映射和颗粒度的问题,这个问题实际是在数据治理过程中最最复杂的一个问题。

      • 一个大的项目,端到端流程,这个大工程下面,会有很多wbs分解,分解到产品有子产品,每个产品又涉及到多个采购订单,每个采购订单下面可能又有相应的装箱单,多个采购接收单,采购接收单下面可能会有多个发运到现场的发运单,后续在项目转资的时候,又会有多个转资申请单;
        • 这么多业务对象,他们之间是怎样映射的,并不是简单理解为一个项目拆分为多个合同,一个合同拆分成多个采购订单,这样一种简单的一对多的关系映射,而是项目与采购订单之间,是一种多对多复杂映射,同一个采购订单,既可以采购A项目需要的物资,也可以采购B项目需要的物资。
        • 所以说,我们会看到在整个项目端到端的业务流程下面,实际隐含的是底层的核心的数据对象之间的端到端的映射,而且这种数据对象,他的颗粒度随时都在发生变化,也正是由于这种原因,我们会发现,当底层的数据的映射、数据的钩稽关系没办法建立起来的时候,我们的业务流程是连通的,但是底层数据的映射和数据的追溯链条是割裂开的。就刚刚说的大的项目端到端的流程中,在项目完工的时候,要做工程项目转资的时候相当的复杂,我们必须一个物料一个物料去核对,来源于哪个发运单,哪个采购订单,对应到哪个具体的采购合同,这种细粒度的最后才去做的映射,相当好的麻烦,相当的复杂。
      • 真正做好数据治理,到了最后一个层次, 一定是要去做好跨多个系统,跨多个业务对象之间的数据映射、数据钩稽关系的建立和数据颗粒度之间的把控,这些问题。
    • 以上简单说了,数据治理从简单到复杂的三个关键点, 这些关键点都是实际,我们在去做相应的业务流程,在去进行相应的上层业务协作过程中,会发生的问题;这些问题的本质都是我们数据层面的问题,我们的数据管控、数据治理工作没有做到位引起的问题,这次俺是我们要去做数据治理最最本质的原因。

    • 做任何的数据治理,首先要去解决数据更好的支撑我们的业务协同,其次才是去考虑我们最终采集集中化以后、整合以后的数据,怎样去更好的创造数据的价值。如果第一步都解决不了,我们就没法解决第二步的问题,将数据资产真正的形成有价值的数据服务。

2.数据治理的四个关键点

主数据大数据平台,数据治理的项目。
DCMM数据治理成熟度模型。

数据治理的四大核心点:

1.定标准

  • 需要制定相关的数据的标准、数据的规范,包括数据本身的产生变更、废弃的流程。
    • 举例说明:
      • 我们在进行供应商订单编码制定的时候,究竟是用显性码还是用隐形码,还是用显性码+隐形码结合的方式,整个订单编码究竟是多少位,以上这些问题都要去做详细的标准定义。
      • 包括订单的单位也是一样,订单的单位有多少种:只、箱、条等单位,什么订单应该用什么样的订单单位都应该有详细明确的标准说明。
  • 除了这一些类似于编码标准规则以外,对于本身主数据的创建流程、变更流程、数据本身的采集的流程、分发的流程,这些仍然是数据的标准规范,这个是做任何数据治理中必须要做的最最关键的一块

2.建模型

  • 对于数据治理里面的数据模型,我们不能简单的理解为数据库数据表的设计,比如说:订单数据表的创建,怎样设计、有哪些字段,每个字段什么类型。
  • 但是对于我们数据治理的数据模型来说,需要基于刚刚举例说明的这一点升华到片数据的元数据。元模型更上层的内容。
    • 我们在创建数据治理模型的时候,首先进行考虑的不是数据库的表,是考虑的整个业务对象、数据对象的模型,基于刚刚的例子,订单是一个业务对象,这个业务对象本身可能涉及到订单的头,订单的明细行,订单的发运航很多细节的数据库表。
    • 必须首先定义清楚数据的对象的模型,同时应该去定义清楚数据对象和数据对象之间的关系模型,比如:订单和合同之间有什么关系,订单和接收单之间的关系,这个是属于上层的数据对象之间的关系模型。
    • 同时需要去定义数据在各个业务系统之间的分布的模型,包括数据采集的模型,这些都是属于数据采集模型的范畴
    • 同时在整个IT建设到后期以后,会发现,除了OLTP以外,还有OLAP的内容,当我们需要去做BI,去做大数据分析的时候,它的数据建模又是一套独立的东西,比如我们了解到的:数据集市怎么建,数据仓库怎么创建,怎样去创建相应的宽表,相应的维表,这些都数据数据建模的内容。

3.沉数据

  • 以上 定标准 和 建模型 做完了以后,才会轮到 沉数据 这一步,也就是数据治理里面的数据资产管理。
  • 当我们定义好了标准的数据规范,建立了标准的数据模型以后,才能够沉淀相应的数据资产,此刻沉淀下来的数据资产,才能够满足我们常说的标准型、一致性、规范性、不重复等各种数据管理的要求。
  • 如果前两步数据标准、数据模型没有做好,然后此刻盲目的就去做数据资产管理,也用了很多类似于ETL大数据采集的数据集成工具,去整合了我们整个底层的ODS库或者底层的数据资产库,但是会发现,最后整合的数据资产,仍然出现大量的重复大量的不一致,那么这个数据资产就没办法发挥它应该有的资产价值

4.促开放

  • 数据驱动:其中有一点是:形成数据资产以后,最大化的发挥数据资产的价值,数据资产形成以后,还需要将数据资产变成数据服务,将数据资产以服务的方式,对外进行数据能力的开发,当前大的数据治理框架中都可以发现:在数据资产上层,会有一个数据服务和数据能力开放层,这个开放的数据服务能力,不仅仅用于传统的BI大数据分析,同时可以实时或者准实时的应用到我们的实际的业务系统、业务流程和业务功能中,这个就是我们经常提到的数据反哺业务,不是简单的业务沉淀数据。
  • 同时,我们需要去考虑数据怎样去支撑我们当前已有的业务运作,是当前的业务运作更加的高效,这样的话才能进一步的去发挥数据实时或者准实时的价值。

综上四点,定标准、建模型、沉数据、促开发以后,然后再结合我们的数据质量管理、数据安全管理,这些基本的能力就完整的构成了数据治理的内容体系。

3.数据治理的核心要素和内容

  • 数据治理 不是一个技术的概念,更多的是偏业务和管理的概念,对于数据治理的理解,需要从业务和技术两个层面去考虑。
  • 业务层面:数据治理 理解为:三横+一竖
    • 三横:
      • 最底层:数据建模和数据的元数据管理,这一层也是展开各种数据治理工作的一个基础
      • 中间层:数据资产的全生命周期的管理,包括数据的创建、数据的变更、数据的废弃、数据质量管理
      • 最上层:数据服务和数据运营,数据转变为数据资产以后,需要考虑将数据转变为一种数据服务能力对外去运营,让数据体现出其该有的价值。
    • 一竖 :
      • 数据到组织、人员、数据治理的标准规范体系的 制定。
  • 技术层面:数据治理 也可以理解为:三横+一竖
    • 一竖:
      • 数据的采集和集成平台,因为我们需要将外部数据落地到我们的平台上面,需要对外采集数据。
    • 三横:
      • 最底层:数据存储平台,存储结构化、半结构化、非结构化的各种数据类型的数据,例如Hadoop生态体系
      • 中间层:数据服务的管理平台/数据服务能力开发平台,需要构建一个完整的数据服务能力的开发平台,把数据能力开放出去,数据服务能力的开放;
        • 一方面可以直接应用到业务系统的需求里面,也就是:数据反哺业务;
        • 另一方面可以应用到后续的大数据分析和决策上面。
      • 最上层:大数据分析平台、数据挖掘平台。

你可能感兴趣的:(大数据,数据治理,数据仓库,大数据)