数据中台与数据湖概念认知

一、数据中台

1. 什么是中台?

       按照数据咨询公司Thoughtworks首席咨询师王健给出的10个字定义,中台就是:“企业级的能力复用平台” 

  • “企业级”划定了中台的范围,区分开了单系统的服务化与微服务。
  • “能力”指定了中台的主要承载对象,能力的抽象解释了各种各样中台的存在。
  • “复用”定义了中台的核心价值,过去的平台化对于易复用性并没有给予足够关注。中台的兴起,使得人们的目光更多的从平台内部,转换到平台对于前台业务的支撑上。
  • “平台”说明了中台的主要形式,区别于应用系统拼凑的方式,通过对于更细粒度能力的识别与平台化沉淀,实现企业能力的柔性复用,对于前台业务更好的支撑。

2. 中台从何而来? 

  •  中台是最早由阿里在2015年提出的“大中台,小前台”战略中延伸出来的概念。
  • 中台的灵感来源于芬兰的小公司Supercell,这家公司仅有300名员工,却接连推出爆款游戏,是全球最会赚钱的明星游戏公司。
  • 2015年年中,马云带领阿里众高管拜访了Supercell。
  • 2016年6月,腾讯宣布以86亿美元收购Supercell公司84.3%的股权。
  • Supercell开创了中台的“玩法”,并将其运用到了极致。这家看似很小的公司,设置了一个强大的中台,用以支持众多的小团队进行游戏研发。这样一来,各个团队就可以专心创新,不用担心基础却又至关重要的技术支撑问题。
  • Supercell的CEO潘纳宁将一个游戏公司按照一个专业运动队的方式来管理。他认为管理层的唯一使命是获得最好的人才,为他们创造最好的环境,给他们自由和信任,帮助他们摆脱困境,让公司成为一个最好人可以产生最大影响的地方。其他的一切,包括财务目标,都是次要的。因此Supercell构建了完全颠倒的管理结构。传统的管理结构是一个金字塔形的,CEO往往处在金字塔的顶端。而Supercell最大的创新之处,在于其管理结构完全是上下颠倒的。潘纳宁最引以为豪的标签是:“行业里最没有权力的CEO”。
  • Supercell的整体架构采用“开发者领导”的模式。300人的团队被分成若干个小团队,5-7个游戏开发者组成一个小团队,开发自己的游戏,以最快的速度推出公测版,检测游戏受用户欢迎的情况。这些小团队又被称为“细胞cell”,Supercell则是这些细胞的集合,这也是Supercell公司名的由来。由此可见,中台不是单纯的系统或平台,更是组织架构的重组和变革。

3. 中台解决了什么痛点?

痛点一:企业前方市场与企业内部支撑的冲突

用户和用户的需求永远是善变的。主流用户的变化,不会因为某个年代人的话语权高低而稳定下来。而即便是同年代的用户,在随着现代社会发展和各行各业互联网服务的滋养中又进化细分成了出不同的支流,需求全然不同,呈现场景化、碎片化的特征。为了不被善变的用户所抛弃,企业不得不跟随着用户;为了满足用户而尽可能积极地响应用户需求的变化,发展新业务、提供新服务。这就给企业的前方业务端提出了挑战:必须做到快速响应、灵活运转。要作为一个能承接大量新业务和新服务的大体量企业,业务想要做到量大又灵活,必定需要靠企业内部科学有序体系的稳定支撑。所以,企业前方市场总是会趋于变化无序,而企业内部支撑总归要趋于稳定有序,两者必定冲突。

痛点二:前台与后台的冲突 

企业前方市场和企业内部支撑的冲突,必定带来在系统层级上的前台和后台的冲突。

  • 前台:企业前方市场的管理平台,是企业的终端用户直接使用或交互的系统。比如像微信、QQ、淘宝这样的APP;
  • 后台:企业内部支撑的管理平台,是企业管理核心能力的系统。比如像企业ERP管理平台、企业财务管理平台等系统。 

前台是对接用户的,所以系统需要快速响应前端用户的需求,快速创新、快速迭代。简而言之:快速建设、错了就推翻重来、不能耗费太大成本。 

后台是企业对内的,为了支撑前台越来越多的业务,后台不断地建设,系统不断庞大地起来。所以后台系统需要扎实稳定,建成之后往往不能随意改动。简而言之,是需要耗费大力成本建设的基础能力、不能轻易推翻、改动成本极大。前台系统和后台系统的特点决定了两者的冲突不可避免。

痛点三:大企业的通病(各占山头、重复建设) 

企业发展到一定程度,组织架构和层级必然不断膨胀扩张。各大事业部下各大部门,就像一个小型组织一样,各占山头,势必会出现屁股决定脑袋的现象。大企业内部各处都是墙——部门墙、业务墙、数据墙。更不用说那些一味的内部赛马的绩效考核机制,势必更加加剧部门间的相互封闭。而一些原本可以快速提供的用户服务,却需要多重对接,无法快速拿出产品方案,耗费很大的成本和极长的时间。一个原本可以共用的服务,被不同部门重复建设。

数据中台与数据湖概念认知_第1张图片

4. 中台的类型有哪些?

按照目前普遍的说法,中台分为6类:

  • 数据中台:提供数据分析能力,帮助企业从数据中学习改进,调整方向。
  • 业务中台:提供重用服务,例如用户中心、订单中心之类的开箱即用可重用能力。
  • 算法中台:提供算法能力,帮助提供更加个性化的服务,增强用户体验。
  • 技术中台:提供自建系统部分的技术支撑能力,帮助解决基础设施、分布式数据库等底层技术问题。
  • 研发中台:提供自建系统的管理和技术实践支撑能力,帮助快速搭建项目、管理进度、测试、持续集成、持续交付。
  • 组织中台:为项目提供投资管理、风险管理、资源调度等支持。

数据中台与数据湖概念认知_第2张图片

5. 中台建设的三大阶段

WHAT(是什么?)-->WHY(为什么?)-->HOW(怎么做?)

数据中台与数据湖概念认知_第3张图片

数据中台与数据湖概念认知_第4张图片

数据中台与数据湖概念认知_第5张图片

7. 数据中台架构设计

数据中台与数据湖概念认知_第6张图片

 数据中台与数据湖概念认知_第7张图片

数据中台与数据湖概念认知_第8张图片

在此架构上要实现的功能:

数据中台与数据湖概念认知_第9张图片

每个公司的数据中台架构都不甚相同,但是基本的思路却相差无几。都是要经过数据的抽取转换与加载实现贯穿整个公司业务线的过程。 

数据中台与数据湖概念认知_第10张图片

8. 如何建设

数据中台与数据湖概念认知_第11张图片

数据中台与数据湖概念认知_第12张图片

二、数据湖

维基百科上定义,数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。

但是随着大数据技术的融合发展,数据湖不断演变,汇集了各种技术,包括数据仓库、实时和高速数据流技术、数据挖掘、深度学习、分布式存储和其他技术。逐渐发展成为一个可以存储所有结构化和非结构化任意规模数据,并可以运行不同类型的大数据工具,对数据进行大数据处理、实时分析和机器学习等操作的统一数据管理平台。

目前,Hadoop是最常用的部署数据湖的技术,所以很多人会觉得数据湖就是Hadoop集群。数据湖是一个概念,而Hadoop是用于实现这个概念的技术。

下面通过一组漫画,更直观的解释数据湖的概念。

从前,数据少的时候,人们拿脑子记就可以了,大不了采用结绳记事:

数据中台与数据湖概念认知_第13张图片

后来,为了更有效率的记事和工作,数据库出现了。数据库核心是满足快速的增删改查,应对联机事务。

数据中台与数据湖概念认知_第14张图片

比如你用银卡消费了,后台数据库就要快速记下这笔交易,更新你的卡余额。

日子久了,人们发现,库里的数据越来越多了,不光要支持联机业务,还有分析的价值。但是,传统数据库要满足频繁、快速的读写需求,并不适合这种以读取大量数据为特征的分析业务。

数据中台与数据湖概念认知_第15张图片

于是,人们在现有的数据库基础上,对数据进行加工。这个加工过程,被称为:ETL(Extract-Transform-Load)抽取、转换和加载。

数据中台与数据湖概念认知_第16张图片

经过这三步,数据仓库就建好了。这个“仓库”,主要是为了数据分析用途,比如用于BI、出报表、做经营分析等等。

简要总结下:数据库用于联机事务,通常为小数据量高频读写。

数据中台与数据湖概念认知_第17张图片

数据库等原始数据,经过ETL加工以后,就被装进了数据仓库。数据仓库主要用于联机分析业务,通常为大数据量读取。

数据中台与数据湖概念认知_第18张图片

虽然应用场景不一样,但他们都是结构化数据

在相当长的一段时间内,他们联合起来,共同满足企业的实时“交易”型业务和联机“分析性”的业务。

随着时代的发展,数据的类型越来越多,人们对数据的需求也越来越复杂。

数据中台与数据湖概念认知_第19张图片

企业越来越看重这些“大数据”的价值,希望把他们存好、用好。

这些数据,五花八门,又多又杂,怎么存呢?

索性挖个大坑吧!

数据中台与数据湖概念认知_第20张图片

这就是数据湖的原型。说白了,数据湖就像一个“大水坑”,是一种把各类异构数据进行集中存储的架构。

为什么不是数据河Data River?

因为,数据要能存,而不是一江春水向东流。

为什么不是数据池Data Pool?

因为,要足够大,大数据太大,一池存不下。

为什么不是数据海Data Sea?

因为,企业的数据要有边界,可以流通和交换,但更注重隐私和安全,“海到无边天作岸”,那可不行。

so,数据湖,Data Lake,刚刚好。

1. 数据湖特点

1) 原始数据

海量原始数据集中存储,无需加工。数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志, XML, JSON),非结构化数据(电子邮件,文档, PDF)和二进制数据(图像,音频,视频)。也就是数据湖将不同种类的数据汇聚到一起。

2) 按需计算

使用者按需处理,不需要移动数据即可计算。数据库通常提供了多种数据计算引擎供用户来选择。常见的包括批量、实时查询、流式处理、机器学习等。

3) 延迟绑定

数据湖提供灵活的,面向任务的数据编订,不需要提前定义数据模型。

2. 数据湖优缺点

1)优点

  1. 数据湖中的数据最接近原生的。这对于数据探索类需求,带来很大便利,可以直接得到原始数据。

  2. 数据湖统一企业内部各个业务系统数据,解决信息孤岛问题。为横跨多个系统的数据应用,提供一种可能。

  3. 数据湖提供了全局的、统一的企业级数据概览视图,这对于数据质量、数据安全..直到整体的数据治理,甚至提高到数据资产层面都大有裨益。

  4. 数据湖改变了原有工作模式,鼓励人人了解、分析数据;而不是依赖于专门的数据团队的”供给”方式,可以提升数据运营效率、改善客户互动、鼓励数据创新。

数据中台与数据湖概念认知_第21张图片

2. 缺点

  1. 对数据的归集处理程度明显缺失,对于试图直接使用数据的用户来说显得有些过于“原材料”化,且数据太过冗余。应对这一问题,可通过”数据接入+数据加工+数据建模”的方式来解决。

  2. 对数据湖基础层的性能有较高要求,必须依托高性能的服务器进行数据处理过程。这主要是来自于海量数据、异构多样化数据、延迟绑定模式等带来的问题。.

  3. 数据处理技能要求高。这也主要是因为数据过于原始带来的问题。

3. 数据湖与数据仓库

数据湖建设思路从本质上颠覆了传统数据仓库建设方法论。传统的企业数据仓库则强调的是整合、面向主题、分层次等思路。其两者并不是对等的概念,更多是包含;即数据仓库作为数据湖的一类“数据应用”存在。

两者可从以下维度进行对比:

1)存储数据类型

数据仓库是存储清洗加工过的,可信任的、结构良好的数据;数据湖则是存储大量原始数据,包括结构化的、半结构化的和非结构化的数据。在我们世界中,主要是由原始的、混乱的、非结构化的数据组成。

随着“混乱数据”的不断升级,人们对它的兴趣也不断增长,想要更好的理解它、从其中获取价值、并根据它做出决策。这就得需要一个灵活、敏捷、经济且相对轻松的解决方案,然而这些都不是数据仓库的强项。而且当有新的需求提出时,传统数据仓库又难以快速随之变化。

2)处理数据方式

如果需要加载到数据仓库中的数据,我们首先需要定义好它,这叫做写时模式(Schema-On-Write)。而对于数据湖,您只需加载原始数据,然后,当您准备使用数据时,就给它一个定义,这叫做读时模式(Schema-On-Read)。

这是两种截然不同的数据处理方法。因为数据湖是在数据到使用时再定义模型结构,因此提高了数据模型定义的灵活性,可满足更多不同上层业务的高效率分析诉求。

3)工作合作方式

传统的数据仓库的工作方式是集中式的,业务人员给需求到数据团队,数据团队根据要求加工、开发成维度表,供业务团队通过BI报表工具查询。

数据湖更多是开放、自助式的(self-service),开放数据给所有人使用,数据团队更多是提供工具、环境供各业务团队使用(不过集中式的维度表建设还是需要的),业务团队进行开发、分析。

目前,Hadoop是最常用的部署数据湖的技术,所以很多人会觉得数据湖就是Hadoop集群。数据湖是一个概念,而Hadoop是用于实现这个概念的技术。

·通过Hadoop存储成本低的特点,将海量的原始数据、本地数据、转换数据等保存在Hadoop中。这样所有数据都在一个地方存储,能给后续的管理、再处理、分析提供基础。

·通过Hive、Spark等低成本处理能力(相较于RDBMS),将数据交给大数据库平台剂型处理。此外,还可通过Storm、Flink等支持流式处理等特殊计算方式。

·由于Hadoop的可扩展性,可以很方便地实现全量数据存储。结合数据生命周期管理,可做到全时间跨度的数据管控。

4. 数据湖的架构体系

数据中台与数据湖概念认知_第22张图片

1) 数据接入(移动)

数据提取允许连接器从不同的数据源获取数据并加载到数据湖中。数据提取支持:所有类型的结构化,半结构化和非结构化数据。批量,实时,一次性负载等多次摄取;在数据接入方面,需提供适配的多源异构数据资源接入方式,为企业数据湖的数据抽取汇聚提供通道。

2) 数据存储

数据存储应是可扩展的,提供经济高效的存储并允许快速访问数据探索。它应该支持各种数据格式。

3) 数据计算

数据湖需要提供多种数据分析引擎,来满足数据计算需求。需要满足批量、实时、流式等特定计算场景。此外,向下还需要提供海量数据的访问能力,可满足高并发读取需求,提高实时分析效率。并需要兼容各种开源的数据格式,直接访问以这些格式存储的数据。

4) 数据治理

数据治理是管理数据湖中使用的数据的可用性,安全性和完整性的过程。数据治理是一项持续的工作,通过阐明战略、建立框架、制定方 针以及实现数据共享,为所有其他数据管理职能提供指导和监督。

5) 元数据

元数据管理是数据湖整个数据生命周期中需要做的基础性工作,企业需要对元数据的生命周期进行管理。元数据管理本身并不是目的,它是组织从其数据中获得更多价值的一种手段,要达到数据驱动,组织必须先是由元数据驱动的。

6) 数据资源目录

数据资源目录的初始构建,通常会扫描大量数据以收集元数据。目录的数据范围可能包括全部数据湖中被确定为有价值和可共享的数据资产。数据资源目录使用算法和机器学习自动完成查找和扫描数据集、提取元数据以支持数据集发现、暴露数据冲突、推断语义和业务术语、给数据打标签以支持搜索、以及标识隐私、安全性和敏感数据的合规性。

7) 隐私与安全

数据安全是安全政策和安全程序的规划、开发和执行、以提供对数据和信息资产的身份验证、授权、访问和审核。需要在数据湖的每个层中实现安全性。它始于存储,发掘和消耗,基本需求是停止未授权用户的访问。身份验证、审计、授权和数据保护是数据湖安全的一些重要特性。

8) 数据质量

数据质量是数据湖架构的重要组成部分。数据用于确定商业价值,从劣质数据中提取洞察力将导致质量差的洞察力。数据质量重点关注需求、检查、分析和提升的实现能力,对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题进行识别、度量、监控、预警等一系列活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。

9) 数据审计

两个主要的数据审计任务是跟踪对关键数据集的更改:跟踪重要数据集元素的更改;捕获如何/何时/以及更改这些元素的人员。数据审计有助于评估风险和合规性。

10) 数据应用

数据应用是指通过对数据湖的数据进行统一的管理、加工和应用,对内支持业务运营、流程优化、营销推广、风险管理、渠道整合等活动,对外支持数据开放共享、数据服务等活动,从而提升数据在组织运营管理过程中的支撑辅助作用,同时实现数据价值的变现。在基本的计算能力之上,数据湖需提供批量报表、即席查询、交互式分析、数据仓库、机器学习等上层应用,还需要提供自助式数据探索能力

数据湖的生命周期

三、数据中台与数据湖的关系

大数据时代,数据量越来越多,数据形式日益复杂,而以数据仓库为代表的、现有的数据存储和处理技术无法满足海量、多样的数据处理需求的背景下产生的。“数据湖”是将复杂的事物具象化,偏技术一些,以一个形象的名字,反应了它在大数据存储和大数据处理方面的优势和能力。

数据湖作为一个集中的存储库,可以在其中存储任何形式(结构化和非结构化)、任意规模的数据。在数据湖中,可以不对存储的数据进行结构化,只有在使用数据的时候,再利用数据湖强大的大数据查询、处理、分析等组件对数据进行处理和应用。因此,数据湖具备运行不同类型数据分析的能力。

数据中台从技术的层面承接了数据湖的技术,通过数据技术,对海量、多源、多样的数据进行采集、处理、存储、计算,同时统一标准和口径,把数据统一之后,以标准形式存储,形成大数据资产层,以满足前台数据分析和应用的需求。

数据中台更强调应用,离业务更近,强调服务于前台的能力,实现逻辑、算法、标签、模型、数据资产的沉淀和复用,能更快速的相应业务和应用开发的需求,可追溯,更精准。

用漫画来形容就是:

数据中台与数据湖概念认知_第23张图片

数据中台与数据湖概念认知_第24张图片

数据中台与数据湖概念认知_第25张图片

数据中台与数据湖概念认知_第26张图片

数据中台与数据湖概念认知_第27张图片

你可能感兴趣的:(学习笔记)