实时数仓当前主流架构(精简总结收藏!!)

目录

  • 1-实时数仓架构特点
    • 1.1-数仓分层明显少于离线数仓
    • 1.2-数据存储的多样化
    • 1.3-技术难度远高于离线数仓
  • 2-实时数仓应用场景
  • 3-实时数仓架构
    • 3.1-lamdba架构
    • 3.2-kappa架构
    • 3.3-架构对比

1-实时数仓架构特点

1.1-数仓分层明显少于离线数仓

一般实时数仓主要是公共层的模型层,缩短数据处理时间,保证数据及时性。

1.2-数据存储的多样化

离线数仓的数据一般存储于hdfs,但是对于实时数仓的数据,一般使用kafka存储ods贴源层,dwd明细数据,dim维度数据更多的存储在HBase中,也可能存储在redis中

1.3-技术难度远高于离线数仓

目前实时数仓技术栈主要是canal+kafka+flink+hbase+clickhouse,相对于写hivesql来说,难度提升了不少,而且实时数仓对数据的准确性及实时性要求比较高。

2-实时数仓应用场景

实时监控,实时推荐

3-实时数仓架构

3.1-lamdba架构

实时数仓当前主流架构(精简总结收藏!!)_第1张图片

3.2-kappa架构

实时数仓当前主流架构(精简总结收藏!!)_第2张图片
与 lamdba架构不同点在于,kappa架构全部移除离线部分,用实时生产替代

3.3-架构对比

实时数仓当前主流架构(精简总结收藏!!)_第3张图片

你可能感兴趣的:(实时计算(数仓),kafka,flink,hadoop,数据仓库,hive)