大数据学习——Day03(数仓实战案例分析)

数仓建模
  1. 范式建模
  2. 维度建模
    - 星型建模
    - 雪花模型
数仓分层
  • ODS(Operation Data Store) --> 操作性数据
  • DW(Data warehouse)–> 数据仓库
  • DM(DataMart)–> 数据集市
数据转换过程
  1. web data(原始数据)
  2. HDFS_ODS(数据操作层)
  3. HDFS_DWD(数据明细层,AVRO格式存储,MapReduce||hive)——ETL
    - AVRO格式动态扩展能力比较强
  4. HDFS_DWS(数据汇总层)——业务关联
  5. HDFS_ADS(数据应用层,ORC格式存储,hive select统计)——指标统计
    -ORC格式便于查询
  6. MySQL(MySQL中间层)——数据统计
  7. 报表系统
开发实现过程
  1. 非结构化数据转换为结构化数据(MR转换)
  2. hive分层实现(上一部分,数据转换过程)
实际实现流程(统计分析)
  1. 数据聚合,将零散数据统一存储
  2. 数据清洗(对数据字段进行拆分组合,得到自己需要的数据字段)
  3. 逐层实现数据分层
  4. hiveSQL生成数据表
  5. 利用工具生成数据报表

你可能感兴趣的:(Python)