正文开始
【与数据同行】已开通综合、数据仓库、数据分析、产品经理、数据治理及机器学习六大专业群,加微信号frank61822702 为好友后入群。新开招聘交流群,请关注【与数据同行】公众号,后台回复“招聘”后获得入群方法。
这是第❹篇神扯:说个神秘的概念——数据湖。
从前,数据少的时候,人们拿脑子记就可以了,大不了采用结绳记事:
后来,为了更有效率的记事和工作,数据库出现了。数据库核心是满足快速的增删改查,应对联机事务。
比如你用银卡消费了,后台数据库就要快速记下这笔交易,更新你的卡余额。
日子久了,人们发现,库里的数据越来越多了,不光要支持联机业务,还有分析的价值。
但是,传统数据库要满足频繁、快速的读写需求,并不适合这种以读取大量数据为特征的分析业务。
于是,人们在现有的数据库基础上,对数据进行加工。这个加工过程,被称为:
“ETL” 抽取Extract、清洗转换Transform、加载Load
经过这三步,数据仓库就建好了。
这个“仓库”,主要是为了数据分析用途,比如用于BI、出报表、做经营分析等等。
简要总结下????
数据库用于联机事务,通常为小数据量高频读写。
数据库等原始数据,经过ETL加工以后,就被装进了数据仓库。
数据仓库主要用于联机分析业务,通常为大数据量读取。
虽然应用场景不一样,但他们都是结构化数据。
在相当长的一段时间内,他们联合起来,共同满足企业的实时“交易”型业务和联机“分析性”的业务。
随着时代的发展,数据的类型越来越多,人们对数据的需求也越来越复杂。
企业越来越看重这些“大数据”的价值,希望把他们存好、用好。
这些数据,五花八门,又多又杂,怎么存呢?
索性挖个大坑吧!
这就是数据湖的原型。
说白了,数据湖就像一个“大水坑”,是一种把各类异构数据进行集中存储的架构。
因为,数据要能存,而不是一江春水向东流。
因为,要足够大,大数据太大,一池存不下。
因为,企业的数据要有边界,可以流通和交换,但更注重隐私和安全,“海到无边天作岸”,那可不行。
可是,概念虽好,把这个“水坑”用好却不容易。
1、这个“坑”挖在哪儿?怎么挖?“挖掘机”贵不贵?
2、这“坑”挖好后,这么把各种水都引过来灌到坑里?
3、灌了半坑水,如何才能把他们利用起来?
这些,就是当下数据湖面临的挑战:如何建湖?如何做数据ETL?如何使用数据。
AWS是这样帮我们“挖坑”的。
首先,数据湖是一种存储架构,本质上讲是存储,所以,AWS就用了自己最经典的S3存储,来当数据湖的地基。
(要知道,AWS在2006年出道的时候,第一款产品就是S3哦)。
企业基于AWS云服务,可以快速挖出一个适合自己的“湖”,而且这个“湖”根据需求,可大可小,按“注水量”付费。
接下来,就是如何把企业的各种异构数据注入到湖里,也就是我们前面说过的“ETL”,看起来很麻烦。
有个非常酷的产品叫AWS Glue,这简直就是个自动化数据分拣机,可以快速完成复杂的ETL过程,处理完的数据,既可以注入数据湖,也可以给数仓或数据库用。
①它能自动化的生成元数据目录,大大简化数据管理工作量;
②它是无服务器架构的,呼之则来,挥之则来,一次还可以整好多台,开足马力处理数据。
目前这个神器已经在AWS中国(宁夏)区域和(北京)区域正式上线了。
同时,还有一个工具,也同步上线,叫做Amazon Athena。
这个工具,让我们可以用标准的SQL,对存储在S3里的数据进行查询,不管是结构化的还是非结构化的。
这就意味着,大家可以用最熟悉的SQL,轻松在S3硬地里“吃土”,当然也能在湖里“划水”,轻松进行数据洞察。
数据入湖之后,并不是简单摸鱼划水就完事了,光有Athena做查询还很不够。
AWS提供了一系列的工具,让企业能进行“湖底大开发”,满足各种各样的业务需求。
数据湖发展到现在,已经成为企业数据体系的基础:数据库、数仓、大数据处理、机器学习等各种数据服务,都可以“一湖尽收”。任何想构建“数据中台”的企业,都可以在AWS找到全面的解决方案。
在这个“上云用数赋智”时代,很多企业已经完成上云第一步,接下来,就是如何“用数”和“赋智”。
跟AWS一起,挖个“坑”,建个“湖”,正当时!
欢迎加入《与数据同行》社群!
猜你想看更多的文章????
从离线数据仓库到实时数据仓库的演进
相伴十六载,讲讲我和数据仓库的故事(二)
相伴十六载,讲讲我和数据仓库的故事(一)
业务为王,这两年我们采用的那些数据产品和技术引擎
大数据架构如何做到流批一体?
美团点评基于 Flink 的实时数仓平台实践
“做好大数据测试,我是认真的!”
辨析BI、数据仓库、数据湖和数据中台内涵及差异点(建议收藏)
一文读懂非关系型数据库(NoSQL)
如何深入浅出的理解数据仓库建模?
拥有敏捷数据交付平台(DataMaster)是怎样一种体验?
痛苦与变革,如何避免大数据PaaS平台建设中的这些“坑”?
中国电信的“天翼大数据飞龙平台”长啥样?
如何打造敏捷的数据挖掘能力?
论道数据仓库维度建模和关系建模
解读云栖大会的《阿里巴巴数据服务产品开发及大数据体系》
阿里云机器学习平台的思考
一个传统企业大数据发展的编年史
一个业务化的大数据PaaS平台启示录
为什么选择这样的大数据平台架构?
我们需要什么样的ETL?
重新认识数据可视化
一只传统企业大数据平台团队的绽放!
看上去很美, 谈谈阿里云的大数据平台「数加」
浙江移动大数据平台践行之路(上)
浙江移动大数据平台践行之路(下)
要看更多,请点击左下角阅读原文即可阅读整理好的所有文章!