数据治理核心概念

数据分类

数据分类 描述
主数据
Master Data
主数据是关于业务实体的数据,描述组织内的“物”,如:人、地点,客户,产品等。
交易数据(事务数据)
Transactional Data
交易数据(事务数据)描述组织业务运营过程中的内部或外部事件或交易记录。如:销售订单,通话记录等。
参考数据
Reference Data
参考数据是用于将其他数据进行分类或目录整编的数据,规定参考数据值是几个允许值之一。如:客户等级分为A,B,C三级。
元数椐
Meta Data
元数据是描述数据的数据,帮助理解、获取、使用数据,分为技术元数据、业务元数据等。
统计分折数据(指标)
Analytical Data
统计分析数据是对企业业务活动进行统计分析的数值型数据,如:指标,举例:客户数等。

        为什么要谈数据分类,因为对每类数据进行治理时,关注点、方法和效果都不同,需要区别对待。下面谈一点我个人的理解。
        主数据关注的是”人"和”物”,主数据管理 (MDM) 是数据治理领城一个专门的话题,其主要目的是对关键业务实体(如员工、客户、产品、供应商等)建立统一视图,让客观世界里本是同一个人或物,在数据世界里也能做到唯一识别,而不是在不同系统、不同业务中成为不同的人或物。主数据管理在各行业企业已经有大量的实践,受限于时间,今天不单独展开,其核心管理思想是和后面要谈的数据治理方法一脉相承的;
        交易数据关注的是“事”,交易数据没有形成单独的数据治理领城,由于交易数据是B1分析的基础,因此往往在数据质量管理中重点关注;
        参考数据是更细粒度的数据,是对"人"“事〞"物”的某些属性进行规范性描述的,对参考数据的管理一般会与主数据管理同时进行,或与B数据质量管理同时进行,因为指标维度和维值直接影响到B数据质量;
        元数据是一个包罗万象的概念,其本质是为数据提供描述,所以任何数据都有元数据。数据治理领城的元数据,更多是指Bl、数据仓库这个范畴内的元数据(国际上有Common Warehouse Meta-model规范》,此外还有信息资源管理的元数据(如Dublin core协议)、地理信息元数据、气象元数据等等。正因为如此广泛,也造成了从业者对其有极高的预期以及实践后的极大失落。

        多说两向元数据:我个人从事过4年左右元数据管理的产品设计和方案规划,但现在极少谈”元数据”,而是谈"数据定义",谈数据必谈定义,但却又不将其作为专门一类数据来管理,在数据治理领域单独做元数据管理,收效甚微。
        主要原因有两点:1.数据生产与数据管理脱节,元数据管理更多是在数据生产的事后进行元数据收集和应用展现,对数据生产起到的管控作用极小;2.工具自身问题:虽然很多工具都号称支持CWM规范,但元数据自动获取始终是技术难题,而且对于存储过程、自定义脚本很难自动解析和获取,就无法准确、 完整展现细节的数据处理过程。
        统计分析数据(指标),无需多言,目 前BI系统建设的主要作用就是做各种指标和报表的计算和展示。指标往往是数据治理的重点,指标的数据流分析、指标数值的波动性、平衡性监控,几乎是各个企业做数据治理的必备应用。

什么是数据治理

        谈完数据分类,再来谈"什么是数据治理”。数据治理的英文是DataGovernance,不同软件厂商和咨询公司给出的定义也会有所不同,但本质都是相似的。我这里引用《DAMA 数据管理知识体系指南》 一书给出的定义:数据治理是对数据资产管理行使权力和控制的活动集合(规划、监控和执行)。数据治理职能指导其他数据管理职能如何执行。可能有些抽象,有图有真相,下面这张图说明了数据治理与其他几个数据管理职能的关系。

数据治理核心概念_第1张图片
        可以看到数据治理贯穿在数据管理的整个过程中,重点关注的是有关数据的战路、组织、制度等高层次的话题,并通过制定和推行战略、组织、制度,将其他几个数据管理职能贯穿、协同在一起,让企业的数据工作能够成为一个有机的整体而不是各自为政。
        有关Data Governance的中文翻译,国内最常见的翻法有两种:数据治理、数据管控。国内客户似乎更喜欢数据管控,因为这个词有力度、体现权威。我个人从实践层面的体会:治理与管控缺一不可,治理在前、管控在后,治理针对的是存量数据,是个由乱到治、建章立制的过程,而管控针对的是增量数据,实现的是执法必严、行不逾矩的约束。

        为什么要做数据治理?下面是一份国际数据质量协会的调研结果可以参考:

数据治理核心概念_第2张图片
数据治理核心概念_第3张图片
        

参考:[干货]御数坊:数据治理的理论、实践与发展趋势

你可能感兴趣的:(大数据,数据治理,大数据)