大数据实战之路-实时数仓-实时数仓架构

流批一体架构

技术栈

开发语言(三者都可以)

  • Java
  • Scala
  • Python

技术选型

  • K8s
  • Debezium
  • Kafka
  • Flink (Hdfs, RockDB)
  • Clickhouse
  • Doris
  • ElasticSearch
  • MySQL
  • DataX (离线抽取, 主要用于历史,历史数据初始化)

批流一体架构

大数据实战之路-实时数仓-实时数仓架构_第1张图片

 

架构实现步骤

  • 1. 实时同步业务库数据到企业总线

1.1 SqlServer 数据实时投递到Kafka
1.2 MySQL 数据实时投递到Kafka

  • 2. 进行数仓实时ETL

2.1 从kafka中实时数据原始数据到clickhouse
2.2 Kafka作为数仓DW层,使用Flink作为实时ETL工具,将数据整合后发送到Kafka

  • 3. 同步数仓数据到落地库,

你可能感兴趣的:(大数据实践之路-数据仓库,大数据)