浅谈传统数据仓库在互联网时代的发展方向

     数据仓库最早是90年代流行于美国,Bill Inmon最先提出了数据仓库的概念,其专著《建立数据仓库(第一版)》明确指出数据仓库是一个具有如下特征的数据的集合:面向主题的、集成的、非易失的且随时间变化 ,同时是为决策支持服务的

1.2000-2012年 ,数据仓库这个在00年逐渐在国内火起来的,这个时候国内的电信和银行企业积累了一定的数据,希望这些数据能够为经营分析做一些决策支持,因此这个阶段国内电信和银行开始建立国内最早一批的数据仓库。使用的技术都是国外厂商,银行企业一般都是用IBM的数仓解决方案,电信厂商一般使用Teradata的数仓解决方案。

这个时候数仓的作用:经营分析,报表展现,数据分析报告

这个时候数仓的技术特点:封源的技术,专业的机器,昂贵的存储,数据量还是有限的GB级的数据。

2.这个状态一直持续到12年左右,2012-2016,移动互联网的发展(以微信为代表),随着开源大数据技术的发展(hadoop/MR,数据量越来越大,这个时候传统的数仓解决方案对爆炸式的数据处理力不从心,成本与日俱增。

这个时候数仓的作用:报表展现,数据分析报告,开始用户数据挖掘,譬如客户标签画像。

这个时候的数仓的技术特点:开始使用hadoop的分布式大数据计算和存储方案,数据量呈现TB级。

3.到了2016---(2019)当前,以spark 和 impala数据处理技术发展,以及flink技术的发展,大数据处理追求快速批处理,实时数据

数据应用:数据建模、机器学习、深度学习发展

数仓发展:数仓从传统经营决策为中心角色转向智能数仓的发展,这时候的数仓除开提供经营决策服务,另外主要功能是计算数据特征、指标的挖掘,应用到数据变现;以及智能数据服务提供这角色;数据仓库发展成为一个数据中台。

这个时候数仓的技术特点:实时数仓和离线数仓结合在一起,数据服务平台化

4.当前(2019)--未来,随着5G通信技术、物联网loT发展,大量非关系化的数据大量产生,这些数据的存储、加工和利用需要新的技术来适配,作为数据管理的中心,数据仓库向着数据湖(Date Lake)的方向发展。

数据湖定义:A data lake is a storage repository that holds a vast amount of raw data in its native format, including structured, semi-structured, and unstructured data. The data structure and requirements are not defined until the data is needed.

数据湖是指一个大型的基于对象的存储库,存储大量的数据包括结构化,半结构化和非结构化的原始格式数据对象,这个数据对象的格式在使用的时候才被定义。

数据湖和数据仓库的区别:

对比维度

数据仓库

数据湖

数据

来自事务系统、运营数据库和业务线应用程序的关系数据

来自 IoT 设备、网站、移动应用程序、社交媒体和企业应用程序的非关系和关系数据

Schema

设计在数据仓库实施之前(写入型 Schema)-Schema on Write

写入在分析时(读取型 Schema)-Schema on Read

存储和计算成本

更快查询结果会带来较高存储成本

更快查询结果只需较低存储成本,相比较数仓,成本更低

用户

商业分析师

数据科学家、数据开发人员和业务分析师(使用监管数据)

主要功能

ETL批量任务、BI 报表

机器学习、预测分析、数据发现和分析

用户

商业分析师

数据科学家、数据开发人员和业务分析师(使用监管数据)

 

你可能感兴趣的:(数据分析,数据仓库)