一个企业的数据治理能力越高,所享受到数据治理带来的价值也会越多,如增加收入、减少成本、降低风险等。于是,很多企业想要准确地评估本公司的数据治理能力,可以利用数据治理成熟度模型方法,包括 DQM, Dataflux 和 IBM 在内的一些组织都开发了相类似的数据治理成熟度模型。
我们先介绍一下 DQM 集团的数据治理成熟度模型,此数据治理成熟度模型共分为 5 个阶段.。
(1) 意识阶段:当公司数据不统一的情况随处可见,数据质量很差却难以提高,数据模型的梳理难以进行时。公司会意识到数据治理对于数据平台的建设发挥着至关重要的作用,但并没有定义数据规则和策略,基本不采取行动;;
(2) 被动的反应阶段:公司在出现数据上的问题时,会去采取措施解决问题,但并不会寻其根源解决根本问题,也就是说,公司的行动通常是由危机驱动的。该类反应性组织的数据仍然是“孤立”存在的,很少进行数据共享,只是努力达到监管的要求;;
(3) 主动的应对阶段:处在这个阶段的组织最终可以识别和解决根本原因,并可以在问题出现之前将其化解。这个阶段的组织将数据视为整个企业的战略资产,而不是像第 1 阶段将数据作为一种成本开销;
(4) 成熟的管理阶段:这个阶段的组织拥有一组成熟的数据流程,可以识别出现的问题,并以专注于数据开发的方式定义策略;
(5) 最佳阶段:一个组织把数据和数据开发作为人员、流程和技术的核心竞争力。
IBM 的数据治理成熟度模型也分为 5 个阶段,分别是初始阶段、基本管理、定义阶段(主动管理)、量化管理、最佳(持续优化)阶段(影响数据治理成熟度的关键因素有以下 3 个:严格性、全面性以及一致性)。
(1) IBM 的初始阶段是指企业缺乏数据治理流程,没有跟踪管理,也没有一个稳定的数据治理的环境,仅仅只能体现个人的努力和成果,工作尚未开展;
(2) 基本管理阶段是指该阶段有了初始的流程定义,,开展了基本的数据治理工作,但仍然存在很多问题;
(3) 定义阶段是指企业在相关成功案例的基础上积累了相关的经验,形成了部分标准但仍不完善的流程;
(4) 量化管理阶段的企业能够运用先进的工具对数据治理的效果进行量化,数据治理已经能取得持续的效果,并且能根据既定的目标进行一致的绩效评估;
(5) 最佳阶段是持续地关注流程的优化,达到了此阶段的企业已经具有创新能力,成为行业的领导者。
从这些企业的数据治理模型可以看出:数据治理从来都不是一次性的程序,而是一个持续的过程,这个过程必须是渐进式迭代型的,每个组织必须采取许多小的、可实现的、可衡量的步骤来实现长期目标。
Khatri 等人使用 Weill 和 Ross 框架进行 IT 治理,作为设计数据治理框架的起点,IBM 的数据治理委员会以支撑域、核心域、促成因素和成果这 4 个层次来构建数据治理框架,如图 9 所示。
图 9 的数据治理框架所包含的 11 个域并不是相互独立运行的而是相关联的,例如,数据的质量和安全/隐私要求需要在整个信息生命周期中进行评估和管理。IBM 的数据治理框架注重数据治理的方法以及过程,IBM 数据治理委员会最关键的命题是数据治理的成果,在下面 3 层的支撑作用下,组织最终实现数据治理的目标提升数据价值。
在 IBM 数据治理框架的基础上加以扩充,设计了一个大数据背景下的数据治理框架,如图 10 所示。
框架顶部的 4 个原则是数据治理自上而下的顶层设计,对大数据治理的实施具有指导作用,它为所有其他的管理决策确定方向。战略一致是指数据治理的战略要和企业的整体战略保持一致,在制定数据治理战略时要融合企业的整体战略、企业的文化制度以及业务需要,来绘制数据治理实现蓝图;大数据的到来不仅伴随着价值同时也会带来风险,企业要保持风险可控有计划地对风险进行不定期的评估工作;运营合规是指企业在数据治理过程中要遵守法律法规和行业规范;企业的数据治理要不断地为企业提供创新服务创造价值。
框架的核心域也可以叫做决策域,指出数据治理需要治理的核心对象,下面对数据治理的 7 个核心域进行一一介绍:其中战略制定要根据大数据治理目标来制定,根据战略的制定,企业应该设置对应的组织架构把战略实施落到实处,明确各个部门相关职责;数据生命周期管理是从数据的采集、存储、集成、分析、归档、销毁的全过程进行监督和管理,根据出现的问题及时优化的过程,数据质量管理不仅要保障数据的完整性、准确性、及时性以及一致性,而且还包括问题追踪和合规性监控。
2014 年 10 月,美国摩根大通公司电脑系统发生数据泄露,被窃取的信息包括客户姓名、地址、电话号码和电子邮箱地址,将对 7 600 万家庭和 700 万小企业造成影响。2018 年 1 月,有一家数据分析公司对 Facebook 超过8 700 万用户进行非法的数据挖掘,接下来的 3 月、9 月以及 12 月,Facebook 又多次发生用户数据泄露事件。
大数据背景下的信息开放和共享,使得隐私和信息安全问题被显著放大,,因此在大数据治理过程中,采取一定的措施和策略保证信息安全和隐私保护尤为重要。下面从大数据安全防护和隐私保护两个方面来介绍它们的关键技术.
(1) 大数据安全防护主要包括以下关键技术
大数据加密技术:对平台中的核心敏感数据进行加密保护,结合访问控制技术,利用用户权限和数据权限的比较来防止非授权用户访问数据;
大数据安全漏洞检测:该技术可以采用白/黑/灰盒测试或者动态跟踪分析等方法,对大数据平台和程序进行安全漏洞检测,减少由于设计缺陷或人为因素留下的问题;
威胁预测技术:利用大数据分析技术,对平台的各类信息资产进行安全威胁检测,在攻击发生前进行识别预测并实施预防措施;
大数据认证技术:利用大数据技术收集用户行为和设备行为数据,根据这些数据的特征对使用者进行身份判断;
(2) 其次,对于隐私保护,现有的关键技术分析如下:
匿名保护技术:针对结构化数据,一般采用数据发布匿名保护技术;而对于类似图的非结构化数据,则一般采用社交网络匿名保护技术;
数据水印技术:水印技术一般用于多媒体数据的版权保护,但多用于静态数据的保护,在大数据动态性的特点下需要改进;
数据溯源技术:由于数据的来源不同,对数据的来源和传播进行标记,为使用者判断信息真伪提供便利;
数据审计技术:对数据存储前后的完整性和系统日志信息进行审计。
大数据架构是从系统架构层面进行描述,不仅关心大数据的存储,还关心大数据的管理和分析。我们首先要明确元数据和主数据的含义:元数据是对数据的描述信息,而主数据就是业务的实体信息,所以对于元数据和主数据的管理是对基础数据的管理。数据治理不仅要降低企业成本,还要应用数据创新服务为企业增加价值,大数据服务创新也是大数据治理的核心价值。
大数据治理的实施与评估主要包括促成因素、实施过程、成熟度评估和审计:促成因素包括企业的内外部环境和数据治理过程中采用的技术工具;大数据治理是一个长期的、闭环的、循序渐进的过程,在每一个阶段需要解决不同的问题,有不同的侧重点,所以应该对数据生命周期的每个阶段有一个很好的规划,这就是实施过程的内涵所在;数据治理成熟度评估主要是对数据的安全性、一致性、准确性、可获取性、可共享性以及大数据的存储和监管进行评估;审计是第三方对企业数据治理进行评价和给出审计意见,促进有关数据治理工作内容的改进,对于企业的持续发展意义重大。
在企业的数据治理过程中,治理主体对数据治理的需求进行评估来设定数据治理的目标和发展方向,为数据治理战略准备与实施提供指导,并全程监督数据治理的实施过程。通过对实施成果的评估,全面了解本公司数据治理的水平和状态,更好地改进和优化数据治理过程,以致达到组织的预期目标。