数据湖(Data Lake)是大数据系统中的一个重要概念,其主要特征是:
1. 集中存储所有原始数据
数据湖试图存放所有可获得的原始数据,包括结构化数据、半结构化数据及非结构化数据。
2. 架构灵活可扩展
数据湖采用扁平化的分布式文件系统存储数据,这种架构具有很强的扩展性。
3. 多种数据格式
数据湖能够存储多种格式的数据,包括日志、CSV、JSON、视频等不同格式。
4. 统一元数据管理
使用元数据对数据源进行注册管理,包括数据定义、标签等关键属性数据。
5. 对外暴露查询接口
数据湖对外提供查询接口,使用SQL等查询数据,可插拔不同的查询引擎。
6. 动态探索分析
数据科学家可以对数据湖进行动态的探索分析,以发现数据价值。
7. 成本优势
相比传统数据仓库,数据湖的存储成本更低。
数据湖让企业能够以更低成本存储大量原始数据,并进行探索性分析。
1. 数据形式
数据仓库存储经过提取、转换、加载(ETL)后的数据集,通常是结构化数据。数据湖存储所有的原始数据,包括结构化、半结构化和非结构化数据。
2. 数据处理时间
数据仓库在数据传入前需要预定义 schema,数据加载前进行数据清洗转换。数据湖允许原始数据直接加载,数据处理可以延迟进行。
3. 存储方式
数据仓库采用关系型数据库存储数据。数据湖采用HDFS等分布式文件系统存储数据。
4. 查询性能
数据仓库基于预定义的schema,查询性能较高。数据湖查询性能较差,需要即席查询。
5. 数据粒度
数据仓库存储的是经聚合的细粒度数据。数据湖存储最原始的数据,粒度更细。
6. 可扩展性
数据仓库扩展性较差,需要复杂迁移。数据湖基于分布式文件系统,可横向扩展。
7. 数据一致性
数据仓库数据一致性较高。数据湖由于包含各种原始数据,一致性较差。
8. 业务目标
数据仓库更适合标准报表和分析。数据湖更适合数据探索和机器学习。