数据湖与数据仓库差异

数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。

数据湖是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。

数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。来自维基百科

数据湖最早是由Pentaho的创始人兼CTO, James Dixon,在2010年10月纽约Hadoop World大会上提出来的。为了推广他的产品与其他数据仓库产品的差异优势.

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。主流观点: Inmon 数据仓库之父

数据仓库技术是为了有效的把操作型数据集成到统一的环境中以提供决策型数据访问的各种技术和模块的总称。所做的一切都是为了让用户更快更方便查询所需要的信息,提供决策支持。
从功能结构划分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存储(Data Storage)、数据访问(Data Access)三个关键部分。

点评
1 很多技术术语, 如数据湖,来自于各个厂家推广自己产品. 因此在学术上并没有统一的定义. 目前统一的业内认识, 数据湖的数据是原始数据汇集,而数据仓库中的数据侧重是清洁高质量数据

2 打个比喻各个地表的河流的水(业务系统), 汇集到一起形成了一个水湖( 数据湖), 在这里有个自来水厂, 对水进行过滤,消毒, 形成了自来水(数据仓库) , 周边有些企业有些把水取走, 去做瓶装纯净水(数据集市),或去做饮料(数据集市与数据应用)

3 数据沼泽:当越来越多的数据接入到数据湖中,但是却没有后续有效的清理跟踪利用这些数据,形成数据沼泽.

4 目前企业大数据建设,为了达到最终应用目标, 通常是数据湖与数据仓库两种情况同时建设.

5 数据中台, 是从数据共享的角度去看数据. 数据湖或者数据仓库建设同样是为了企业各个组织共享数据. 因此数据湖与数据仓库成为数据中台也是可以的. 但是当前数据中台架构中, 通常还包括并强调了数据处理(或者说是操作) 能力,例如 数据管理\数据操作\数据分析\机器学习等.

你可能感兴趣的:(数据湖与数据仓库差异)