数据湖学习笔记No.02(湖仓一体)

数仓一体

什么是数据仓库

框架如图所示:

  1. 数据湖学习笔记No.02(湖仓一体)_第1张图片

为了统计结果,比如最终在数据集市层获得一个销量的指标

Lambda架构到Kappa架构

数据湖学习笔记No.02(湖仓一体)_第2张图片

Lambda(两套代码 两套数据)->Kappa

在Lambda 的基础上进行了优化,删除了 Batch Layer 的架构,将数据通道以消息队列进行替代。因此对于Kappa架构来说,依旧以流处理为主,但是数据却在数据湖层面进行了存储,当需要进行离线分析或者再次计算的时候,则将数据湖的数据再次经过消息队列重播一次则可。

Kappa架构缺点:

1、无法存储历史数据

2、不支持sql,无法支持搞笑的OLAP

3、无法复用数据血缘管理体系

4、Kafka不支持update/upsert

数据湖的出现是为了解决Kappa架构的痛点问题

数据湖

数据湖是一个集中式的存储库,允许你以任意规模存储多个来源、所有结构化和非结构化的数据,对数据进行加工(大数据处理、实时分析、机器学习)帮助企业更好得决策。

至今为止,数据湖最火的三个技术是Hudi、Deltalack、Iceberg
数据湖学习笔记No.02(湖仓一体)_第3张图片

Iceberg支持增删改查,并且它的存储单表可以达到PB级别

Kafka擅长的领域是可以快速把数据接过来 作为缓存

Iceberg特点

1、Iceberg是一种数据湖的解决方案

2、Iceberg格式表单表可以存储数10PB数据 (知道数据的大小和具体位置)

3、支持实时/批量数据写入和读取,支持Spark/Flink计算引擎

4、支持SQL查询,支持添加、删除、更新数据

Iceberg数据存储格式:(分层的目的是为了便于删除、增加)

数据湖学习笔记No.02(湖仓一体)_第4张图片

快照:每当生成一个parquet生成一个快照,快照记录当前拥有多少数据。

manifest file:记录数据在哪里(快照来找manifest)

元数据(metadata):存储着数据存在哪?大小多少?描述数据的数据 找到当前的快照是谁

查询数据:元数据->快照->找manifest要数据

Iceberg数据查询原理

数据湖学习笔记No.02(湖仓一体)_第5张图片

元数据找到当前快照的位置-> 在快照找到manifest文件 ->在其中找到数据

数据湖学习笔记No.02(湖仓一体)_第6张图片
数据湖学习笔记No.02(湖仓一体)_第7张图片

你可能感兴趣的:(大数据学习,学习,数据仓库,数据库)