【Flink实时数仓】数据仓库项目实战 《一》 准备工作

文章目录

  • 【Flink实时数仓】 实时数据仓库项目实战
    • 配置选择
    • 数据采集工具选择
      • 用户行为数据采集模块 (Flume、Kafka)
      • 业务数据采集模块 (MySQL、Maxwell、Kafka)
    • 实时数据仓库工具选择
      • **实时数仓分层:**
        • 计算框架:Flink;存储框架:消息队列(可以实时读取&可以实时写入)
        • ODS:Kafka
        • DIM:HBase
        • DWD:Kafka
        • DWS:ClickHouse
        • ADS:不落盘,实质上是接口模块中查询ClickHouse的SQL语句
    • Flink实时数据仓库核心架构

【Flink实时数仓】 实时数据仓库项目实战

项目参考:
https://www.bilibili.com/video/BV1TG411a7nL/?spm_id_from=333.999.0.0&vd_source=fadf978240b1a472cdb682395c8ca5da

配置选择

服务器准备:需要分别安装hadoop102、hadoop103、hadoop104三台主机。
这里我们选择搭建虚拟机来模拟三台主机集群。
物理机配置: 选择了CPU D-1581(16核32线程) + 64 G 内存 的组合
【Flink实时数仓】数据仓库项目实战 《一》 准备工作_第1张图片

虚拟机:暂定每台虚拟机 8个处理器 ,16G内存,30G硬盘空间。(之后不够再加)
【Flink实时数仓】数据仓库项目实战 《一》 准备工作_第2张图片

数据采集工具选择

模拟数据采集模块:
-------------------------1.用户行为数据采集模块
-------------------------2.业务数据采集模块

用户行为数据采集模块 (Flume、Kafka)

【Flink实时数仓】数据仓库项目实战 《一》 准备工作_第3张图片

业务数据采集模块 (MySQL、Maxwell、Kafka)

【Flink实时数仓】数据仓库项目实战 《一》 准备工作_第4张图片

实时数据仓库工具选择

实时数仓分层:

计算框架:Flink;存储框架:消息队列(可以实时读取&可以实时写入)

ODS:Kafka

	使用场景:每过来一条数据,读取到并加工处理

DIM:HBase

	使用场景:事实表会根据主键获取一行维表数据(1.永久存储、2.根据主键查询)
	HBase:海量数据永久存储,根据主键快速查询          √
	Redis:用户表数据量大,内存数据库                 ×
	ClickHouse:并发不行,列存                       ×
	ES:默认给所有字段创建索引                       ×
	Hive(HDFS):效率低下                            ×
	Mysql本身:压力太大,实在要用就使用从库            √

DWD:Kafka

	使用场景:每过来一条数据,读取到并分组累加处理

DWS:ClickHouse

	使用场景:每过来一条数据,读取到并重新分组、累加处理

ADS:不落盘,实质上是接口模块中查询ClickHouse的SQL语句

	使用场景:读取最终结果数据展示

Flink实时数据仓库核心架构

【Flink实时数仓】数据仓库项目实战 《一》 准备工作_第5张图片

你可能感兴趣的:(flink,数据仓库,hbase)