华为数据分类管理框架和经验

我们云原生实验室在这段时间一直从事联邦学习的项目研发,联邦学习解决的是机器学习中企业数据联合使用的问题,因此我们也很关注各类数据管理框架和技术。近期读了一本关于数据管理的书:《华为数据之道》,对企业管理和使用数据做了系统的总结,其中有不少的原理值得借鉴。在征得出版社许可后,摘录部分章节分享给大家,感兴趣的读者可以点击图片购买图书作参考。

华为数据分类管理框架和经验_第1张图片

最近的畅销书《华为数据之道》对华为的数字化转型方法和经验进行了系统性地披露。企业的数字化转型,数据治理是关键,数据的分类管理又是数据治理的核心,本文将通过《华为数据之道》这本书的部分内容来详细看一看华为的数据分类管理框架是如何搭建的,以及华为在数据分类管理方面的实战经验。

不同的企业或组织基于不同的目的,可以从多个角度对数据进行分类,如结构化数据和非结构化数据、内部数据和外部数据、原始数据和衍生数据、明细数据和汇总数据等。华为在业界的数据分类基础上,结合自身多年的实践,已形成完整的数据分类管理框架。华为对数据进行分类的目的,是为了针对不同特性的数据采取不同的管理策略,以期实现最大的投入产出比。

华为的数据分类管理框架(基于特征分类)

华为根据数据特性及治理方法的不同对数据进行了分类定义:内部数据和外部数据、结构化数据和非结构化数据、元数据。其中,结构化数据又进一步划分为基础数据、主数据、事务数据、报告数据、观测数据和规则数据。华为数据分类管理框架如图1所示。

华为数据分类管理框架和经验_第2张图片

图1 华为数据分类管理框架

不同分类的数据,其治理方法有所不同。如基础数据内容的变更通常会对现有流程、IT 系统产生影响,因此基础数据的管理重点在于变更管理和统一标准管控。主数据的错误可能会导致成百上千的事务数据错误,因此主数据的管理重点是确保同源多用、重点进行数据内容的校验等。


结构化数据管理(以统一语言为核心)

结构化数据包括基础数据、主数据、事务数据、报告数据、观测数据、规则数据。结构化数据的共同特点是以信息架构为基础,建立统一的数据资产目录、数据标准与模型。下面将重点介绍六类结构化数据的治理方法。

1.基础数据治理

基础数据用于对其他数据进行分类,在业界也称作参考数据。基础数据通常是静态的(如国家、币种),一般在业务事件发生之前就已经预先定义。它的可选值数量有限,可以用作业务或IT 的开关和判断条件。当基础数据的取值发生变化的时候,通常需要对流程和 IT 系统进行分析和修改,以满足业务需求。因此, 基础数据的管理重点在于变更管理和统一标准管控。

基础数据在支撑场景分流、流程自动化、提升分析质量方面起着关键作用,治理基础数据的价值如图2所示。

华为数据分类管理框架和经验_第3张图片

图2 基础数据治理的价值

因此,有效地管理基础数据对企业来说可以产生巨大的收益。华为建立了一个完整的基础数据管理框架(如图3所示), 通过明确各方的管理责任、发布相关的流程和规范以及建立基础数据管理平台等来确保基础数据的有效管理。

华为数据分类管理框架和经验_第4张图片

图3 基础数据治理框架

2.主数据治理

主数据是参与业务事件的主体或资源,是具有高业务价值的、跨流程和跨系统重复使用的数据。主数据与基础数据有一定的相似性,都是在业务事件发生之前预先定义;但又与基础数据不同,主数据的取值不受限于预先定义的数据范围,而且主数据的记录的增加和减少一般不会影响流程和 IT 系统的变化。但是, 主数据的错误可能导致成百上千的事务数据错误,因此主数据最重要的管理要求是确保同源多用和重点进行数据内容的校验。华为的主数据管理策略如图4所示。

华为数据分类管理框架和经验_第5张图片

图4 主数据治理策略

华为的主数据范围包括客户、产品、供应商、组织、人员主题,每个主数据都有相应的架构、流程及管控组织来负责管理。

鉴于主数据管理的重要性,对于每个重要的主数据,都会发布相应的管理规范,数据管家依据数据质量标准定期进行数据质量的度量与改进。

同时,对于主数据的集成消费按照如下管理框架进行管理。

●数据消费层:数据消费层包括所有消费数据的 IT 产品团队,负责提出数据集成需求和集成接口实施。

华为数据分类管理框架和经验_第6张图片

图 5 主数据治理框架

●主数据服务实施层:负责主数据集成解决方案的落地, 包括数据服务的 IT 实施和数据服务的配置管理。

●主数据服务设计层:为需要集成主数据的 IT 产品团队提供咨询和方案服务,负责受理主数据集成需求,制定主数据集成解决方案,维护主数据的通用数据模型。

●管控层:管控层由信息架构专家组担任,负责主数据规则的制定与发布,以及主数据集成争议或例外的决策。

3.事务数据治理

事务数据在业务和流程中产生,是业务事件的记录,其本身就是业务运作的一部分。事务数据是具有较强时效性的一次性业务事件,通常在事件结束后不再更新。

事务数据会调用主数据和基础数据。以客户框架合同为例, 核心属性有 32 个,其中调用基础数据和主数据 24 个,占 75% ;客户框架合同本身特有的属性 8 个,占 25%。同时,框架合同也引用了机会点的编码和投标项目的编码等事务数据的信息。

因此,事务数据的治理重点就是管理好事务数据对主数据和基础数据的调用,以及事务数据之间的关联关系,确保上下游信息传递顺畅。在事务数据的信息架构中需明确哪些属性是引用其他业务对象的,哪些是其自身特有的。对于引用的基础数据和主数据,要尽可能调用而不是重新创建。

4.报告数据治理

报告数据是指对数据进行处理加工后,用作业务决策依据的数据。它用于支持报告和报表的生成。

用于报告和报表的数据可以分为如下几种。

●用于报表项数据生成的事实表、指标数据、维度。

●用于报表项统计和计算的统计函数、趋势函数及报告规则。

●用于报表和报告展示的序列关系数据。

●用于报表项描述的主数据、基础数据、事务数据、观测数据。

●用于对报告进行补充说明的非结构化数据。

报告数据涵盖的范围较广,如主数据、基础数据等,这些数据类别本身已经有相应的管理机制和规范,这里我们重点对部分新的细分数据类型进行说明。

1)事实表:从业务活动或者事件中提炼出来的性能度量。其特点为:

●每个事实表由颗粒度属性、维度属性、事务描述属性、度量属性组成;

●事实表可以分为基于明细构建的事实表和基于明细做过汇聚的事实表。

2)维度:用于观察和分析业务数据的视角,支持对数据进行汇聚、钻取、切片分析。其特点为:

●维度的数据一般来源于基础数据和主数据;

●维度的数据一般用于分析视角的分类;

●维度的数据一般有层级关系,可以向下钻取和向上聚合形成新的维度。

3)统计型函数:与指标高度相关,是对指标数量特征进一步的数学统计,例如均值、中位数、总和、方差等。其特点为:

●通常反映某一维度下指标的聚合情况、离散情况等特征;

●其计算数值在报告中通常呈现为图表中的参考线。

4)趋势型函数:反映指标在时间维度上变化情况的统计方式,例如同比、环比、定基比等。其特点为:

●通常将当期值与历史某时点值进行比较;

●调用时,需要收集指标的历史表现数据;

●其计算数值在报告中通常呈现为图表中的趋势线。

5)报告规则数据:一种描述业务决策或过程的陈述,通常是基于某些约束下产生的结论或需要采取的某种措施。其特点为:

●将业务逻辑通过函数运算体现,通常一个规则包含多个运算和判断条件;

●规则的计算结果一般不直接输出,需要基于计算结果翻译成业务语言后输出;

●规则通常与参数表密切相关。

6)序列关系数据:反映报告中指标及其他数据序列关系的数据。

5.观测数据治理

观测数据是通过观测工具获取的数据,观测对象一般为人、事、物、环境。

相比传统数据,观测数据通常数据量较大且是过程性的,由机器自动采集生成。不同感知方式获取的观测数据,其数据资产管理要素不同。

观测数据的感知方式可分为软感知和硬感知。软感知是使用软件或者各种技术进行数据收集,收集的对象存在于数字世界, 通常不依赖于物理设备,一般是自动运行的程序或脚本;硬感知是利用设备或装置进行数据收集,收集的对象为物理世界中的物理实体,或者是以物理实体为载体的信息,其数据的感知过程是数据从物理世界向数字世界的转化过程。

观测数据的特征有如下几点:

1)观测数据通常数据量较大且是过程性的,主要用作监控分析。例如,视频监控器产生的视频数据、操作系统产生的日志记录数据等。

华为数据分类管理框架和经验_第7张图片

图6  观测数据管理模型

观测工具的元数据可以作为数据资产管理:软感知(埋点、日志收集、爬虫)观测工具抽象成业务对象,由 IT 部门担任数据 Owner 进行统一管理;硬感知观测工具作为资源类数据,也建议作为业务对象由相应的领域担任数据 Owner 进行管理。

原则上,观测对象要定义成业务对象进行管理,这是观测数据管理的前提条件。观测数据需要记录观测工具、观测对象。针对不同感知方式获取的观测数据,其资产管理方案也不尽相同。例如,以用户界面浏览记录为例,如果是对销售机会点的查询访问观测,应当归属到相应业务领域;如果是对页面性能、页面 UV、PV 的观测, 应当归属到 IT 部门。

6.规则数据治理

在业务规则管理方面,华为经常面对“各种业务场景业务规则不同,记不住,找不到”“大量规则在政策、流程等文件中承载,难以遵守”“各国规则均不同,IT 能否一国一策、快速上线”等问题。

规则数据是结构化描述业务规则变量(一般为决策表、关联关系表、评分卡等形式)的数据,是实现业务规则的核心数据, 如业务中普遍存在的基线数据。

规则数据主要有以下特征:

1)规则数据不可实例化;

2)规则数据包含判断条件和决策结果两部分信息,区别于描述事物分类信息的基础数据;

3)规则数据的结构在纵向(列)、横向(行)两个维度上相对稳定,变化形式多为内容刷新;

4)规则数据的变更对业务活动的影响是大范围的。   

其基本原则为:       

1)规则数据的管理是为了支撑业务规则的结构化、信息化、数字化,目标是实现规则的可配置、可视化、可追溯。

2)不同于标准化的信息架构管理,规则数据的管理具有轻量化、分级的特点。重要的、调用量大、变动频繁的业务规则需要通过规则数据管理,使其从代码中解耦,进行资产注册;使用广泛的、有分析需求的规则数据需要通过注册入湖,实现共享和复用。

3)业务规则在架构层次上与流程中的业务活动相关联,是业务活动的指导和依据,业务活动的结果通过该业务活动的相关业务对象的属性来记录。业务规则通过业务活动对业务事实、业务行为进行限制,业务人员可以根据业务规则判断业务情况,采取具体行动。

4)业务规则包含规则变量和变量之间的关系,规则数据主要描述规则的变量部分,是支撑业务规则的核心数据(如图7 所示)。

华为数据分类管理框架和经验_第8张图片

图7 业务规则与规则数据之间的关系

此外,运行规则所需要的输入数据、输出数据,包括动态数据库访问对象、内存表缓存、Excel、XML 处理类等,主要起支撑作用,不在规则数据的范畴。

规则数据必须有唯一的数据 Owner,其负责开展规则数据的信息架构建设与维护、数据质量的监控与保障、数据服务建设、数据安全授权与定密等工作。相应的数据管家支持数据 Owner 对所管辖的业务中的规则数据进行治理,包括建设和维护信息架构、确保架构落地遵从、例行监控数据质量等。

规则数据的元数据要记录与业务规则的关系(规则数据定义前应先完成业务规则的识别和定义)。一个业务规则可以包含零个、一个或多个规则数据,一个规则数据在信息架构上对应一个逻辑数据实体,在物理实现上一般对应一个物理表。规则数据要遵从信息架构资产管理要求(包括明确规则数据的 Owner、制定数据标准、明确数据源等),按照信息安全要求定密,以方便规则数据的管理、共享和分析。

非结构化数据管理(以特征提取为核心)

随着业务对大数据分析的需求日益增长,非结构化数据的管理逐渐成为数据管理的重要组成部分。非结构化数据包括无格式文本、各类格式文档、图像、音频、视频等多种异构的格式文件, 较之结构化数据,其更难标准化和理解,因此在存储、检索以及消费使用时需要智能化的 IT 技术与之匹配。华为的非结构化数据包括文档(邮件、Excel、Word、PPT)、图片、音频、视频等。

相较于结构化数据,非结构化元数据管理除了需要管理文件对象的标题、格式、Owner 等基本特征和定义外,还需对数据内容的客观理解进行管理,如标签、相似性检索、相似性连接等, 以便于用户搜索和消费使用。因此,非结构化数据的治理核心是对其基本特征与内容进行提取,并通过元数据落地来开展的。非结构化数据的管理模型如图8 所示。

华为数据分类管理框架和经验_第9张图片

图8 非结构化数据管理模型

非结构化数据的元数据可以分为基本特征类(客观)和内容增强类(主观)两类。

1)基本特征类:参考都柏林十五个核心元数据,实现对非结构化数据对象的规范化定义,如标题、格式、来源等。

2)内容增强类:基于非结构化数据内容的上下文语境,解析目标文件对象的数据内容,加深对目标对象的客观理解,如标签、相似性检索、相似性连接等。

非结构化数据的元数据管理采用统分统管的原则,即基本特征类属性由公司进行统一管理,内容增强类属性由相关承担数据分析工作的项目组自行设计,但其分析结果都应由公司元数据管理平台自动采集后进行统一存储。

元数据管理平台通过“基本特征类元数据流”和“内容增强类元数据流”两条线来实现对非结构化数据的元数据管理和消费使用。

1)基本特征类元数据流

元数据管理平台基于收集到的各类非结构化数据源信息,自动完成基础特征类元数据的采集工作,按照管理规范和要求通过标准化、整合后存储在元数据管理平台中,并在完成元数据过滤、排序后将结果在元数据报告中进行可视化展示,以供用户消费使用。

2)内容增强类元数据流

基于元数据管理平台中基本特征类元数据的信息,各数据分析项目组解析目标非结构化对象的数据内容,并将分析结果通过元数据采集、元数据标准化 & 整合后统一存放在元数据管理平台中,以供用户一并消费使用,增强用户体验。


外部数据管理(以确保合规遵从为核心)

外部数据是指华为公司引入的外部组织或者个人拥有处置权利的数据,如供应商资质证明、消费者洞察报告等。外部数据治理的出发点是合规遵从优先,与内部数据治理的目的不同。

外部数据的治理主要遵循以下原则。

1)合规优先原则:遵从法律法规、采购合同、客户授权、公司信息安全与公司隐私保护政策等相关规定。

2)责任明确原则:所有引入的外部数据都要有明确的管理责任主体,承担数据引入方式、数据安全要求、数据隐私要求、数据共享范围、数据使用授权、数据质量监管、数据退出销毁等责任。

3)有效流动原则:使用方优先使用公司已有数据资产,避免重复采购、重复建设。

4)可审计、可追溯原则:控制访问权限,留存访问日志, 做到外部数据使用有记录、可审计、可追溯。

5)受控审批原则:在授权范围内,外部数据管理责任主体应合理审批使用方的数据获取要求。

在以上原则指导下,我们要求所有采购的外部数据要注册, 在合规的前提下鼓励数据共享,避免重复采购。其他方式引入的外部数据,由管理责任主体决定登记方式。根据法律条款和授权范围,外部数据管理责任主体有权决定外部数据是否入数据湖, 如果需要入数据湖,必须遵从数据湖建设相应的流程和规范。同时,外部数据管理责任主体有义务告知使用方合规使用外部数据, 对于不合规的使用场景,不予授权;数据使用方要遵从外部数据管理责任主体的要求,对不遵从要求所引起的后果承担责任。

元数据管理(作用于数据价值流)

无论结构化数据,还是非结构化数据,或者外部数据,最终都会通过元数据治理落地。华为将元数据治理贯穿整个数据价值流,覆盖从数据产生、汇聚、加工到消费的全生命周期。

1.元数据治理的痛点与挑战

华为在进行元数据治理以前,遇到的元数据问题主要表现为数据找不到、读不懂、不可信,数据分析师们往往会陷入数据沼泽中。元数据管理的痛点如图9 所示。

华为数据分类管理框架和经验_第10张图片

图9 元数据管理痛点

为解决以上痛点,华为建立了公司级的元数据管理机制。制定了统一的元数据管理方法、机制和平台,拉通业务语言和机器语言。确保数据“入湖有依据,出湖可检索”成为华为元数据管理的使命与目标。基于高质量的元数据,通过数据地图就能在企业内部实现方便的数据搜索。

元数据是描述数据的数据,用于打破业务和 IT 之间的语言障碍,帮助业务更好地理解数据。元数据通常分为业务、技术和操作三类。

●业务元数据:用户访问数据时了解业务含义的途径,包括资产目录、Owner、数据密级等。

●技术元数据:实施人员开发系统时使用的数据,包括物理模型的表与字段、ETL 规则、集成关系等。

●操作元数据:数据处理日志及运营情况数据,包括调度频度、访问记录等。

在企业的数字化运营中,元数据作用于整个价值流,在从数据源到数据消费的五个环节中都能充分体现元数据管理的价值。

●数据消费侧:元数据能支持企业指标、报表的动态构建。

●数据服务侧:元数据支持数据服务的统一管理和运营, 并实现利用元数据驱动 IT 敏捷开发。

●数据主题侧:元数据统一管理分析模型,敏捷响应井喷式增长的数据分析需求,支持数据增值、数据变现。

●数据湖侧:元数据能实现暗数据的透明化,增强数据活性,并能解决数据治理与 IT 落地脱节的问题。

●数据源侧:元数据支撑业务管理规则有效落地,保障数据内容合格、合规。

2.元数据管理架构及策略

元数据管理架构包括产生元数据、采集元数据、注册元数据和运维元数据。

●产生元数据:制定元数据管理相关流程与规范的落地方案,在 IT 产品开发过程中实现业务元数据与技术元数据的连接。

●采集元数据:通过统一的元模型从各类 IT 系统中自动采集元数据。

●注册元数据:基于增量与存量两种场景,制定元数据注册方法,完成底座元数据注册工作。

●运维元数据:打造公司元数据中心,管理元数据产生、采集、注册的全过程,实现元数据运维。

●元数据管理方案:通过制定元数据标准、规范、平台与管控机制,建立企业级元数据管理体系,并推动其在公司各领域落地,支撑数据底座建设与数字化运营。

华为元数据管理整体方案如图10所示。

华为数据分类管理框架和经验_第11张图片

图10 华为元数据管理整体方案

华为经过多年实践,已经建立了相对完整的数据分类管理框架,为数据治理奠定了基础。随着数字化转型的深入开展,尤其是面向未来海量的非结构化数据、IoT 场景的观测数据、外部合规日趋严格的外部数据等,华为将不断丰富每一类数据的治理实践。

关于华为具体是如何构建数据分类管理框架,以及具体是如何管理结构化数据、非结构化数据、外部数据和元数据的,推荐详细阅读华为官方出版的《华为数据之道》。


来源:享利笔记

推荐阅读:
超详细280页Docker实战文档!开放下载
华为内网最火的文章:什么是内卷?

架构设计和常见误区

10个常见的软件架构模式

架构之道:大道至简

微信技术总监:11亿日活的超大型系统架构之道!13页ppt详解

你可能感兴趣的:(大数据,编程语言,python,机器学习,人工智能)