前言
数据管理领域是信息技术发展中的一个新兴领域,随着互联网、全球化和信息化的快速发展,数据管理的重要性日益显现。数据管理是把业务和信息技术融合起来所必需的一整套技术、方法及相应的管理和治理过程。它的特殊定位决定了它涉及的知识体系面广且深,而要把其中各知识领域和它们之间的相互关系梳理和解释清楚并不是一件容易的事情。DAMA国际通过对业界数据管理最佳实践的分析总结,出版了《DAMA-DMBOK2数据管理知识体系指南(第2版)》,本书给出数据管理的职能、术语和最佳实践方法的标准行业解释,提供数据管理总体框架,为数据管理发展提供了重要的理论基础。
一
本书背景及概要介绍
国际数据管理协会(Data Management Association ,又名DAMA International,以下简称“DAMA”)是一个全球性数据管理和业务专业志愿人士组成的非营利协会,致力于数据管理的研究和实践。DAMA国际自1980年成立以来,一直致力于数据管理的理论研究、实践、教训及相关知识体系的建设,在数据管理领域累积了极为深厚的知识沉淀和丰富经验。
几十年来,DAMA组织众多数据管理领域的国际级资深专家编著,深入阐述数据管理各领域的完整知识体系。作为最终体现,DAMA的数据管理知识体系[DAMA-DMBOK2:Data Management Body of Knowledge.2 nd Edition],中文版为《DAMA数据管理知识体系指南(第2版)》,第二版英文版在2017年出版。
《DAMA数据管理知识体系指南(第2版)》一书中文版由机械工业出版社在国内出版,即将于5月底上市。全书由国际数据管理协会中国分会多名会员志愿共同翻译完成,这是一项里程碑式的工作。
本书是国际数据管理协会(DAMA International)对过去30多年数据管理领域知识和实践的一个总结,由会员们花了多年时间和业界专家反复讨论撰写而成。
它是市场上唯一综合了数据管理方方面面的一部权威性著作。目前市场上有关数据某一专门领域的著作并不鲜见,但把数据管理各领域作为一个完整的知识体系来讨论的据我所知却仅此一本,而这正是本书的一个主要独特之处。
DAMA-DMBOK2理论框架由车轮图(由11个数据管理职能领域)和环境因素六边形图(由7个基本环境要素)”共同构成“DAMA数据管理知识体系”(纵轴为数据管理的11个职能领域,横轴为7个环境要素),每项数据职能领域都在7个基本环境要素约束下开展工作。
《DAMA-DMBOK2 职能框架》定义了 11 个主要的数据管理职能,并通过 7 个环境元素对每个职能进行描述。如下的矩阵以图示方式给出此框架。
数据管理职能包括数据治理、数据架构、数据建模和设计、数据存储和操作、数据安全、数据集成和互操作、文档和内容管理、参考数据和主数据管理、数据仓库与商务智能、元数据管理、数据质量管理。
基本环境要素:目标与原则、组织与文化、工具、活动、角色和职责、交付成果、技术。
《DAMA-DMBOK2 指南》的每 一章介绍一个数据管理职能,讨论此职能的 7 个环境元素。根据所讨论的具体问题, 每章的讨论深入程度有所不同。每一章都遵循如下的统一结构,包括:
(1)对该职能的简要介绍,包括关键术语的定义、关联图和业务目标列表。
(2)概念和活动的描述:包括相关的交付成果,负责的角色和组织,最佳实践,常用程序和方法,配套技术等。有一些章节中会为每一个子职能单独定义概念和活动。
(3)一段综述:包括一个重申指导原则的列表,一个重述该职能相关活动、交付成果和责任角色的表格,以及关于组织和文化问题的简要讨论。
(4)推荐读物列表:给出了可选读的书籍和文章,以供参考。
二
本书用途及读者群体
2.1 本指南的用途和目标
《DAMA-DMBOk2数据管理知识体系指南》(即《DAMA—DMBOK2指南》)一书,进一步推动数据管理行业的发展。本指南的目的是为数据管理科学提供明确的概述,并不试图成为数据管理的百科全书,或是就所有数据管理相关事情的全面论述。相反,本指南简要介绍了数据管理相关概念,并确定了数据的管理目标、职能和活动的主要交付成果、角色、原则、技术和组织文化方面的问题。它简要介绍了被人们普遍接受的良好规范以及重要的可选方法。
《DAMA数据管理知识体系指南(第2版)》的主要10大用途和目标是:
对数据管理职能,达成一个普遍适用的看法共识,让不同的读者了解有关数据管理的本质和重要性。
提供常用的数据管理职能、交付成果、角色和相关术语标准的定义,帮助数据管理专员和数据管理专业人士了解自己的角色和职责。
帮助机构制定企业数据战略。确定数据管理的指导原则,帮助建立数据管理领域的共识。
指导实施和改进数据管理职能的工作、广泛采用的方法和技术以及重要的可选办法,指南中不涉及具体的技术供应商或产品。
简明扼要地识别共同的组织和文化问题。
澄清数据管理的范围和界限。
引导读者接触更多的资源来加强对数据管理的理解。
提供数据管理有效性和成熟度评估的基础。
指导高等教育系统开发和提供数据管理课程内容。
帮助数据管理专业人士准备 CDMP 考试。
2.2 本书的适合的读者群体
笔者认为,以下12大读者群体适合阅读该书:
企事业单位信息化主管领导(CIO)。
企事业单位数据管理主管领导(CDO)。
企事业单位IT人员。
企事业单位数据管理团队及专、兼职数据管理人员、数据相关项目的解决方案提供者。
企事业单位各业务职能部门数据管理专员。
会计事务师所的从业人员
咨询公司的风险、合规、管理、数据治理从业人员。
律师事务所在合规、权益等方面的律师及从业人员。
经过认证的和有抱负的数据管理专业人士
负责开发和提供数据管理课程的教育工作者。
MBA和信息管理专业本科及以上学生。
政府领域数据管理领域的研究人员。
同时,《DAMA数据管理知识体系指南(第2版)》切入点比较全面和系统,适合于高校MBA或者计算机专业本科或者以上的教科书。
三
MBOK1与DMBOK2主要变化和新增加内容
DMBOK2相对DMBOK1有8方面的变化,详细阐述如下:
3.1 章节的变化
DMBOK1去掉了“数据开发”章节,增加了“数据建模和设计”和“数据集成和互操作”,同时增加“数据处理伦理规范”、“大数据和数据科学”、“数据管理成熟度评估”、“数据管理组织和角色期望”、“数据管理和组织变革管理”章节
3.2 数据治理嵌入各知识领域
(1)数据治理不仅独立作为一章进行介绍,更是在每个知识领域章节中,专门增加一节介绍该领域内涉及到治理的内容。
(2)强调数据治理融入系统设计和开发过程中,让数据治理成为保证系统质量和数据质量的有力保障,其贯彻系统建设全过程,数据治理落地性更强。
3.3 知识体系发生变化
数据架构,数据建模和设计两部分内容重要性加强了,数据标准包括在数据模型设计中。强调数据设 计及在设计过程中落标。
3.4 数据治理理念发生变化
(1)从事后治理向事先管控转变,从被动治理向主动治理转变,从理论向实战落地转变,从单纯的治理向治理+服务扩展,从传统数据向大数据转变。
(2)强调风险管理和企业文化因素,每个知识领域增加“实施指南”一节,包括风险评估各个领域实践过程中可能遇到的风险和应对建议。
3.5 落地性更强
(1)数据治理嵌入到业务开展、系统建设、数据应用流程中,治理概念脱虚向实。
(2)在介绍11个知识体系过程中,每个部分都分别详细介绍了落地方法及工具情况,便于落地。
(3)每个知识领域增加“实施指南”一节,针对现状的评估、企业文化变革方面提供了建议和思考。
3.6 六边形内容变化
“实战和方法”,“主要交付物”两部分内容 合并为交付管理,增设工具内容;
图上增加显示了人、过程和技术分类;
“实践和方法”替换为“工具”;
六边形内容变化“实战和方法”,“主要交付物”两部分内容 合并为交付管理,增设工具内容。DMBOK1以理论知识体系为主,在“实战和方法” “主要交付物”两部分,强调的是方法论,而DMBOK2强调交付和工具的重要性;
3.7 数据管理框架的进化
该框架从数据管理的指导目标开始获取价值,因此与数据全生命周期相关,派生价值需要生命周期管理。从数据生命周期出发,数据治理贯穿于整个数据开发过程。
3.8 技术和流程性更强
数据治理必须嵌入到业务开展、系统建设、数据应 用流程中,并通过工具来支撑使用,工具的介绍篇章及份额明显增加。
四
核心内容介绍
对数据管理专业人士也可用作业务参考。全书共17章。分别是:
数据治理(Data Governance):通过建立一个能够满足企业需求的数据决策体系,为数据管理提供指导和监督。这些权限和责任的建立应该考虑到组织的整体需求。(参见第3章)
数据架构(Data Architecture):定义了与组织战略协调的管理数据资产的“蓝图”,指导基于组织的战略目标,指定符合战略需求的数据架构。(参见第4章)
数据建模和设计(Data Modeling and Design):以数据模型(data model.)的精确形式,进行发现、分析、展示和沟通数据需求的过程。(参见第5章)
数据存储和操作(Data Storage and Operations):以数据价值最大化为目标,包括存储数据的设计、实现和支持活动,以及在整个数据生命周期中,从计划到销毁的各种操作活动。(参见第6章)
数据安全(Data Security):这一活动确保数据隐私和安全,数据的获得和使用必须要有安全的保障。(参见第7章)
数据集成和互操作(Data Integration and Interoperability):包括与数据存储、应用程序和组织之间的数据移动和整合相关的过程。(参见第8章)
文档和内容管理(Document and Content Management):用于管理非结构化媒体的数据和信息的生命周期过程,包括计划、实施和控制活动,尤其是指支持法律法规遵从性要求所需的文档。(参见第9章)
参考数据和主数据管理(Reference and Master Data Management):包括核心共享数据的持续协调和维护,使关键业务实体的真实信息,以准确、及时和相关联的方式在各系统间得到一致使用。(参见第10章)
数据仓库和商务智能(Data Warehousing and Business Intelligence):包括计划、实施和控制流程,来管理决策支持数据,并使知识工作者通过分析报告从数据中获得价值。(参见第11章)
元数据管理(Metadata Management):包括规划、实施和控制活动,以便能够访问高质量的集成元数据,包括定义、模型、数据流和其他至关重要的信息(对理解数据及其创建、维护和访问系统有帮助)。(参见第12章)
数据质量管理(Data Quality Management):包括规划和实施质量管理技术,以测量、评估和提高数据在组织内的适用性。(参见第13章)
除了有关知识领域的章节外DAMA-DMBOK,车轮图以外的内容,包含以下主题章节:
数据处理伦理(Data Handling Ethics):描述了关于数据及其应用过程中,数据伦理规范在促进信息透明、社会责任决策中的核心作用。数据采集、分析和使用过程中的伦理意识对所有数据管理专业人士有指导作用。(参见第2章)
大数据和数据科学(Big Data and Data Science):描述了针对大型的、多样化数据集收集和分析能力的提高而出现的技术和业务流程。(参见第14章)
数据管理成熟度评估(Data Management Maturity Assessment):概述了评估和改进组织数据管理能力的方法。(参见第15章)
数据管理组织和角色期望(Data Management Organization and Role Expectations):为组建数据管理团队、实现成功的数据管理活动提供了实践提供和参考因素。(第16章)
数据管理和组织变革管理(Data Management and Organizational Change Management ):描述了如何计划和成功地推动企业文化变革,文化的变革是将数据管理实践有效地嵌入组织中必然结果。(第17章)
第一章、数据管理主要内容
(1)数据管理9大核心原则
数据是有独立属性的资产:数据是一种资产,但相比其他资产,其在管理方式的某些方面有很大差异。对比金融和实物资产,其中最明显的一个特点是数据资产在使用过程中不会产生消耗。
数据价值能够并且应该通过经济术语来表达:将数据称为资产意味着它有价值。虽然有技术手段可以测量数据的数量和质量,但还未形成这样做的标准来衡量其价值。想要对其数据做出更好决策的组织应该开发一致的方法来量化该价值。他们还应该衡量低质量数据的成本和高质量数据的好处。
管理数据意味着管理数据的质量:确保数据符合应用的要求是数据管理的首要目标。为了管理质量,组织必须确保他们了解利益相关者对质量的要求,并根据这些要求度量数据。
管理数据需要元数据:管理任何资产都需要首先拥有该项资产的数据(员工人数,账户号码等)。用于管理和如何使用的数据都叫元数据。因为数据无法拿在手中或触摸到,要理解它是什么以及如何使用它,需要以元数据的形式定义这些知识。元数据源于与数据创建、处理和使用相关的一系列流程,包括架构、建模、管理、治理、数据质量管理、系统开发、IT和业务运营以及分析。
管理数据需要计划:即便是小型组织也可能有复杂的技术和业务流程蓝图。数据在多个地方被创建,且因为使用需要在很多存储位置间移动。需要一些协调工作来保持最终结果的一致,需要从架构和流程的角度进行规划。
管理数据是跨职能的工作:它需要一系列的技能和专业知识,因此单个团队无法管理组织的所有数据。数据管理需要技术能力、非技术技能以及协作能力。
数据管理需要企业级视角:虽然数据管理存在很多本地应用程序,但它必须能够有效地被应用于整个企业。
数据是流动的,数据管理必须不断发展演进,以跟上数据创建的方式、应用的方式和消费者的变化。
数据管理是全生命周期的管理:数据是有生命周期的,因此数据管理需要管理它的生命周期。因为数据又将产生更多的数据,所以数据生命周期本身可能非常复杂。数据管理实践活动需要考虑数据的整个生命周期。
(2)知识领域语境关系图
描述了知识领域的细节,包括与人员、流程和技术相关的细节。它们基于产品管理(供应者、输入、活动、交付成果和消费者)的SIPOC图的概念。
语境关系图将活动放在中心,这些活动生产了满足利益相关者需求的可交付成果。每个语境关系图都以知识领域的定义和目标开始。
驱动目标(中心)的活动分为四个阶段:计划(P)、开发(D)、操作(O)和控制(C)。
在左侧流入活动中是输入和供应商。右侧从活动中流出是交付成果和消费者。参与者列在活动下方。
底层是影响知识领域各个方面的工具、技术和度量标准。
(3)DAMA金字塔
第1阶段:组织购买包含数据库功能的应用程序。这意味着组织以此作为数据建模、设计、数据存储和数据安全的起点。要使系统在其数据环境中运行,还需要做数据集成和交互操作方面的工作。
第2阶段:一旦他们开始使用应用程序,他们将发现数据质量方面的挑战。但获得更高质量的数据取决于可靠的元数据和一致的数据架构。它们说明了来自不同系统的数据是如何协同工作的。
第3阶段:管理数据质量、元数据和架构需要严格地实践数据治理,为数据管理活动提供体系性支持。数据治理还支持战略计划的实施,如文档和内容管理、参考数据管理、主数据管理、数据仓库和商务智能,这些黄金金字塔中的高级应用都会得到充分地支持。
第4阶段:该组织充分利用了良好管理数据的好处,并提高了其分析能力。
2
第二章、数据处理伦理
(1)数据处理伦理语境关系图
描述构成数据管理伦理的基本原则;阐述数据伦理处理方法如何帮助组织避免数据的非正常使用及由此带来的对客户、声誉或更广大群体的危害。
(2)数据伦理准则
尊重他人: 这个准则反映了对待人类最基本的伦理要求,即尊重个人尊严和自主权。
行善原则:这条准则有两个要素:第一,不伤害;第二,将利益最大化、伤害最小化。
公正:这一准则认为待人公平和公正
(3)建立合乎伦理道德的数据处理文化
建立合乎伦理道德的数据处理文化需要理解现有实践,定义预期行为,将它们编入策略和道德规范,并提供培训和进行监督,以强制执行预期行为,与管理数据和改变文化相关的其他举措一样,这一过程需要强有力的领导层的推动。
合乎伦理道德的数据处理显然包括遵守法律。它也会影响组织内部和外部对数据的分析、 解释和利用方式,重视伦理道德行为的组织文化不仅 要有行为准则,还要确保有清晰的沟通和治理机制,以支持那些意识到不道德行为或风险的员工。
(4)主要观点
组织需要以合乎伦理道德的方式处理数据,否则就有风险,就有可能失去客户、员工、合作伙伴和其他利益相关方的信任;
数据伦理植根于社会的基本原则和伦理道德的基本述求;
与数据相关的监管基于这些相同的原则和要求,但监管不能涵盖所有意外情况。因此,组织必须考虑到自己行为的伦理道德规范;
组织应该为它们处理数据培养道德责任文化,这不仅是为了符合合规要求,同时也是本来就应该做的正确的事;
合乎伦理道德的数据处理最终将为组织提供竞争优势,因为它是信任的基础。
3
第三章、数据建模和设计
(1)数据建模与设计语境关系图
数据建模与设计:数据建模是发现、分析和确定数据需求的过程,然后用一种用称为数据模型的精确形式表示和传递这些数据需求。这个过程是循环迭代的,可能包括概念、逻辑和物理模型。
4
第八章、数据集成和互操作
定义:管理和整合在应用系统和组织内部,或者应用系统与组织之间传输的数据。
5
第十四章、大数据和数据科学
大数据不仅是指数据量大,也包括数据的种类(结构化的和非结构化的,文档(documnents)、文件(files)、音频、视频、流数据等), 以及数据产生的速度。那些从数据中探究并研发预测模型、机器学习模型、规范性模型和分析方法、并将研发结果部署供相关方进行分析的人,被称为数据科学家。
大数据和数据科学:多种不同类型的数据集合(大数据)和分析(数据科学,解析,可视化),都是为了洞察和解决分析初始时未知的问题。
随着大数据被加载到数据仓库和商务智能环境中,数据科学技术被用来为组织提供前瞻性的视图(“挡风玻璃”)。使用不同种类的数据源,实现预测能力、基于模型的实时分析能力,能够为组织未来的发展方向提供更深刻的洞察能力。
要想利用大数据,就需要改变数据的管理方式。大多数数据仓库都基于关系模型,而大数据一般不采用关系模型组织数据。大多数数据仓库依赖于ETL(提取、转换和加载)的概念。大数据解决方案,如数据湖,则依赖于ELT的概念——先加载后转换。更加重要的是,数据的生产速度和容量带来了挑战,需要在数据管理的各个关键领域中采用不同的方法,如集成、元数据管理和数据质量评估。
6
第十五章、数据管理成熟度评估
成熟度模型通过描述各阶段能力特点来定义成熟度的级别。当一个组织满足某阶段能力特征时,就可以评估其成熟度等级,并制定一个提高能力的计划。它还可以帮助组织在等级评估的指导下进行改进,与竞争对手或合作伙伴进行比较。在每一个新等级,能力评估会变得更加一致、可预测和可靠。当能力呈现出与等级不符的特征时,等级会得到提升。但能力水平有既定顺序,不能跳过任何等级。
CMM通常定义五至六个成熟度级别,每个级别有各自的特性,从初始级到优化级。数据管理成熟度评估框架被划分为离散的数据管理主题,框架焦点和内容取决于它们是用于通用行业还是特定行业。
7
第十六章、数据管理组织和角色期望
大多数组织正面临着越来越多的数据。这些数据格式多样化、数量庞大,并来源于不同的渠道。由于数据的数量和种类的增加,加剧了数据管理的复杂性。与此同时,数据消费者要求更快速、更方便地访问数据,他们希望理解并使用数据,以便及时地解决关键业务问题。数据管理和数据治理组织需要足够灵活,才能在不断发展的环境中有效地工作。因此,需要澄清关于所有权、协作、责任和决策的基本问题。
本章将描述在组建数据管理或数据治理组织时,应该考虑的一组原则。它同时涉及数据治理和数据管理,因为数据治理为数据管理组织执行活动提供指导和业务背景。两者都没有完美的组织结构。虽然数据治理和数据管理组织应该遵循一些公共原则,但是很多细节依赖于组织所在行业的驱动因素和组织自身的企业文化。
运营模式是改进数据管理和数据治理实践的起点。引入运营模式之前,需要了解它如何影响当前组织以及它可能会如何发展。由于运营模式将帮助政策和流程的定义、批准和执行,因此确定最适合组织的运营模式是至关重要的。
评估当前的组织结构是集中的、分散的,还是混合的、层级化的或相对扁平的?描述相关部门或区域的独立性。他们的运作几乎是自给自足的?他们的要求和目标是否有很大的差异?最重要的是,尝试确定决策是如何做出的(例如,民主或强制性指令),以及如何实施这些决策?
8
第十七章、数据管理和组织变革管理
成功的数据管理实践需要:
根据信息价值链调整数据责任制度,以此来学习横向管理。
将垂直的(筒仓)数据责任制度转变为共享的信息管理工作。
将局部业务关注点或IT部门工作中的信息质量演变为整个组织的核心价值。
将对信息质量的思考从"数据清洗与数据质量记分卡”提升转变为组织的基本能力。
对不良数据管理引发的代价和规范化数据管理带来的价值进行衡量。
组织变革管理专家约翰·科特(John P. Kotter)总结了一套基本的“变革法则”,这些法则描述了为什么变革并不容易。在变革过程之初就认识到这些问题有助于取得成功。
组织不变革,人就变: 不是因为新组织宣布成立或新系统实施上线就要变革。人们认识到变革带来的价值而发生行为变化时,变革就会发生。改进数据管理实践和实施正式数据治理流程将对组织产生深远的影响。人们需要改变数据处理的方式,以及在数据相关活动中的互动方式。
人们不会抗拒变革,但抵制被改变:人们无法接受看起来武断或独裁的变革。如果他们始终参与变革、定义变革,并且他们理解推动变革愿景,以及知道变革发生的时间和方式,他们就更有可能愿意进行变革。数据相关举措的变革管理部分涉及到团队合作,以在组织层面建立起对数据管理实践改进后价值的理解。
事情之所以存在是惯性所致:事情的现状可能是因为好的历史原因。在过去某个节点,有人定义了业务需求、定义了流程、设计了系统、编写了策略、或者确立了当前恰好需要变革的商业模式。了解当前数据管理实践的起源,将有助于组织规避历史错误。
除非有人推动变革,否则很可能止步不前:如果想有所改进,就必须采取新措施。
如果不考虑人的因素,变革将很容易: 变革在"技术"层面上的实现通常是很容易的。挑战来自于如何处理人与人之间的自然差异。
结束语
大数据时代的到来,让“数据即资产”成为最核心的产业趋势。在这个“数据为王”的时代,企业发展兴衰的决定性因素,已不是一城一池的争夺,也不是土地、人力、技术、资本这些传统意义上的生产要素,而是曾经被一度忽视的"数据资产"。
数据成为资产的关键在于数据挖掘分析,需要以资产化的方式进行数据治理,实现“应用和管理”稳步前进。只有通过数据的整合,达到企业数据的上下贯通,横向融合,才能更好的做好数据资产的运营。
数据治理已成为企事业单位精细化管理不可或缺的基础,只有切实落实好数据治理工作,才能提升企业数据质量、实现数据价值升华,真正成为企业应对市场挑战的助推力。
源链接:深度解读数据管理葵花宝典-《DAMA-DMBOK2数据管理知识体系指南(第2版)》