2022数据湖技术摘要

DataFunSummit 2022 数据湖论坛 数据湖技术论坛 (xiaoe-tech.com)

1. 美团增量数仓的探索和实践

美团离线增量数据的探索和实践

Hadoop没有主键概念

hive没有主键概念

  1. upsert(replace),delete,MVCC(Multi Version concurrency Control)受限
  2. 有主键的数据在hive中,无法形成增量数据生产链路,必须全量数据参与

HDFS文件不支持修改

  1. Btree+覆盖写的方式行不通
  2. 只能增量+存量进行Merge产生最终数据集
架构选型-数据模型
  1. MOR架构 -- 降低生产成本:读数据时产生冗余IO + 离线compact
  2. 支持主键
  3. 支持复杂MVCC,不支持事物:同步任务模型:有调度的乱时间序写入
  4. sharding策略:1.差异化读写并发 2.弹性伸缩:hash主键前缀 + range打散
架构选型-HIDI

hadoop incremental dataformat implemtation
HFile + Bulkload + SnapshotinputFormat + 离线compact


HIDI架构

美团实时增量数据的探索和实践

从增量数仓到批流融合

批计算和流计算
成本与时效性的权衡
批流一体的数仓模型
  1. 开发模型融合 -- Flink
  2. 调度融合 1. 批到流 mini batch by kafka 2. 流到批 mini batch by hudi logfile
  3. 存储融合 1. 流join 2. 点 + 批 + 增量 + 全量 + 离线 + 实时
  4. 批流应能灵活切换
问题
  1. level0 和 level1 区别
  2. 为什么选取hudi

2. 实时数仓场景与架构搭建实战

数仓设计架构演进

数仓架构演进
实时数仓架构
实时数仓架构
是否需要实时计算
  1. 当前的业务场景是否需要
  2. 业务价值是什么
是否需要更轻的服务
  1. 更轻的运维
  2. 更好的弹性伸缩能力
  3. 更好的系统稳定性
  4. 成本节省
  5. 安全
  6. 减一点配置

Amazon Analytics Serverless

Amazon Analytics Serverless 服务
无服务器的实时数仓架构
还需要什么

Amazon Redshift 更强劲的云原生实时数仓架构

Redshift 架构
Redshift 实时数据摄入能力
实时数据摄取能力
Redshift 实时数仓
Redshift实时数仓与实时计算

Redshift实时数仓 + ML

3. Delta技术原理及其在EBAY的应用

Lakehouse架构
Lakehouse架构
Delta Lake技术原理
Delta Lake技术原理

4. Icebege在微视实时场景的应用

为何用Icebege

背景-数仓架构
微视数仓架构
  1. 实时数仓成本高
  2. 两套计算存储的数据一致性和成本问题
原因分析
原因分析
Icebege与传统存储对比
Icebege与传统存储对比

如何用Icebege

落地结构
Icebege落地结构
使用Icebege支持实时需求
使用Icebege支持实时需求
  1. 使用Icebege基础核心模型建设,为更多业务落地打基础
  2. 成本降低超99%
数据回溯
  1. 新增指标
  2. 修改计算口径
  3. 数据修复
数据回溯功能的实现
流转批场景
流体一体

维护Icebege

数据维护
  1. 清除过期数据
  2. 清除过期快照
  3. 小文件合并 1. binpack策略 2. sort策略:例如:使用用户ID做分组排序
  4. 元数据合并
  5. 清除孤儿文件

小文件合并原理

原理

问题

  1. 每次维表更新率在万分之一在Icebege如何更新
  2. flink中的数据回溯功能是如何实现的
  3. Icebege底层和hive的区别,存储格式
  4. iceberg小文件合并占用多少资源
  5. upsert

5. Juice FS在数据湖存储架构上的探索

大数据存储架构概览

大数据存储架构的变迁
大数据存储架构的变迁
为什么要有数据湖
  1. 数据孤岛
  2. 多样的数据格式(结构化,半结构化,非结构化)
  3. 分散的数据管理
  4. 存储计算耦合,缺乏弹性
  5. 机器学习和深度学习
什么是数据湖
  1. A data lake is a system or repository of data stored in its natural / raw format ,usually object blobs or files
  2. 一个足够便宜,可靠且能支撑海量数据的底层存储(对象存储)
  3. everything in one place
  4. 后置ETL
  5. 存储计算分离,更加云原生
为什么要有湖仓一体
  1. 数据仓库依然存在,只是后置了
  2. 数据仓库的数据滞后性
  3. 机器学习和深度学习的问题依然存在
  4. 数据重复拷贝和重复ETL
  5. ACID事务,多版本数据,索引,零拷贝克隆等
什么是湖仓一体
  1. 开放统一的底层文件格式
  2. 开发的存储层
  3. 开发的计算引擎集成
  4. 与深度学习框架的结合

Juice FS与Lakehouse

Juice FS简介

简介
简介
架构
Juice FS与HDFS,对象存储的比较
Juice FS与HDFS,对象存储的比较

Juice FS与数据湖生态

6. Icebege在小红书的探索和实践

APM日志入湖

数据平台概览
小红书数据平台概览
日志数据入湖
APM case
  1. 动态分区流量极不均匀,keyby数据倾斜,不keyby小文件多
  2. 小文件多 1.distcp延迟 2. 下游读取效率差
Evenpartionshuffle
  1. 引入shuffle
  2. 流量动态变化
日志数据入湖
  1. 异步:下游ETL任务已触发
  2. 跨云读写,OI&OOM风险
Cloud Native Table
日志数据入湖 - Cloud Native Table
S3FileIO
S3FileIO
下游集成
下游集成
日志数据入湖

实时湖分析探索

实时分析链路
流批一体存储
IcebegeMergeTree

CDC实时入湖

Mysql全量入仓
Mysql全量入仓
CDC增量入仓
CDC增量入仓
CDC实时入湖
Exactly once语义
Exactly once语义
MoR
Deduper
Hidden Partition
Hidden Partition

问题

  1. CDC入湖方案
  2. 美团DB数据同步到数据仓库的架构与实践

你可能感兴趣的:(2022数据湖技术摘要)