数据中台【数据中台是“经营数据”,数据中台是为了提供服务而生(也有说是为了前台而生)】【数据仓库是“管理数据”】

数据中台【数据中台是“经营数据”,数据中台是为了提供服务而生(也有说是为了前台而生)】【数据仓库是“管理数据”】_第1张图片
数据中台【数据中台是“经营数据”,数据中台是为了提供服务而生(也有说是为了前台而生)】【数据仓库是“管理数据”】_第2张图片

一、什么是数据中台

数据中台是一种数据管理体系,在企业中是独立的部门,为数据挖掘而建,最重要的目标是支持各部门业务数据和提供计算服务。数据中台的本质就是 “数据仓库+数据服务中间件”

数据中台是一套可持续“让企业的数据用起来”的机制,一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建一套持续不断把数据变成资产并服务于业务的机制。

数据中台要做四个方面的工作分别是“采集”、“存储”、“打通”、“使用”。采集就是要采集各条业务线的业务数据、日志数据、用户行为数据等有用的数据。

存储就是要用更加科学的方式存储数据,一般采用三层建模的方式,让收集上来的数据形成公司的数据资产。打通就是要打通用户的行为数据和用户的业务数据,如电商用户的浏览、点击行为和用户的支付业务数据,就要做到打通。使用就是就打通的数据赋能业务人员、领导层进行决策,做到数据反哺业务。

二、数据中台构成

“数据中台”一般包含以下几个部分:

  • 数据仓库:用来存储数据的,结构性数据、非结构性数据等,还有离线数据和实时数据等;
  • 大数据中间件:包含了大数据计算服务、大数据研发套件、数据分析及展现工具;
  • 数据资产管理:按照阿里的体系应该分为垂直数据、公共数据和萃取数据3层;

三、如何建立数据中台

建设数据中台主要就是从数据模型、数据资产、数据治理、数据服务四部分出发。

首先需要做整体规划,哪些数据需要纳入到数据中台中,根据数据接入的情况,进行技术选型,评估集群的配置,规划至少3年的计算和存储资源。

1、数据模型

数据模型,就是我们熟悉的数据仓库中的模型,按照数据仓库规范分层开发模型,实现数据的标准化,多采用维度建模。还有一些挖掘模型,如果用的多了,也可以沉淀到数据中台中。我们可以看出数据中台中的模型具有通用性。

数据建模一般分为2个步骤:

确认事实表,分析业务的生命周期,明确业务的关键步骤。在进行指标定义的时候是否覆盖了本主题语中的全部指标,判断哪些指标可以通过加减乘除计算得到等。

确定维度,粒度是模型设计的关键,太细的粒度不利于上层数据分析汇总,太粗的粒度又不能满足前段多维度个性化查询需求。基于此,模型设计时候一般考虑分层,层级越往后,粒度越粗。冗余维度也是需要考虑的,设计冗余的维度可以避免统计中过多的关联导致复杂的计算逻辑,影响性能。

2、数据资产

在数据仓库中我们已经建立了一些模型,但是只有打通数据孤岛后才可以称为资产。需要规范指标库,这些指标可以组合处理满足外部人员个性化的指标需求。资产管理的基础是做好元数据管理,元数据包括采集的接口信息,模型信息、指标定义,作业的血缘关系、数据存储以及访问情况等。

3、数据治理

很多数据仓库人员曾沦为“表哥”,天天忙着提取数据核对指标,时间长了,业务人员容易对你的数据不信任。数据治理主要是为了保障数据资产的完整性、准确性、一致性、及时性。根据指定的规范开发模型、校验模型、管理模型,为业务提供统一的、准确的指标保驾护航。

4、数据服务

数据中台最重要的就是要对外提供统一的服务能力。数据服务需要包含以下几个能力:

数据接口标准化:提供统一的数据服务在线查询视图,让开发者能够快速、简单的访问数据服务;

数据开发可视化:提供服务接口的可视化配置,开发者只需要配置SQL就可以生产API,减低接口开发技术要求,便于维护和接口管理。对于业务分析人员可以让他们轻松的进行算法分析,包括模型管理、可视化编排流程,算法模型发布等功能。

四、数据中台和数据平台的关系

其实,数据中台与大数据平台最本质的区别在于数据中台是具备业务属性的,输入的是原始数据,输出的是指标。

如果我们把数据中台看作是一个汽车工厂,那大数据平台就是工厂中的设备,Hadoop 集群则是工厂运作所必须的水、电、煤。

Hadoop提供的是大数据生产所必须的计算和存储资源,大数据平台使得数据开发人员具备了对数据的加工和处理能力,但还不能提供产品,这么多的原始数据,要按照一定的方法论,进行良好的组织,加工,才能生成最终的指标。




参考资料:
数据中台(方法论篇)
到底什么是“数据中台”,我用大白话给你说清楚
什么是数据中台?
数据中台(一)什么是数据中台
一文详解数据中台,别再跟数据平台搞混了!
数据中台 总结
浅谈数据中台

你可能感兴趣的:(大数据,数据中台)