1——Hive数仓项目完整流程(在线教育)

目录

前言

一、项目架构

二、软件相关作用

1.大数据相关软件

2.数仓

        2.1数据仓库与数据库

        2.2数据仓库和数据集市

        2.3维度分析

        2.4指标

3.数仓建模

        3.1建模理论

        3.2维度建模

        3.3维度建模的三种模型

        3.4缓慢渐变维

总结



前言

本专栏以大数据实战“在线教育项目”为导向系统学习Hive数仓


一、项目架构

本项目基于Cloudera Manager 大数据统一管理平台,在次平台构建大数据相关的软件(Zookeeper、HDFS、YARN、Hive、oozie、Sqoop、HUE)最后使用 FineBI 报表展示

二、软件相关作用

1.大数据相关软件

HDFS:负责最终数据的存储                        YARN:主要提供资源的分配

Hive:用于编写SQL进行数据分析                oozie:用来做自动化定时调度

Sqoop:用于数据的导入导出                        HUE:提升操作Hadoop的用户体验,基于HUE操作HDFS、Hive......

数据流转的流程:首先,业务数据是存储在MySQL数据库中,通过Sqoop对MySQL的数据进行数据的导入操作,将数据导入至Hive的ODS层中,对数据进行清洗、转换、处理工作,处理之后对数据进行统计分析,将统计分析的结果基于Sqoop在导出到MySQL中,最后使用FineBI实现图展示操作,由于分析工作是需要周期性工作,采用oozie进行自动化的调度工作,整个项目基于Cloudera Manager进行统一化管理...

 1——Hive数仓项目完整流程(在线教育)_第1张图片


⚠️⚠️⚠️ (每个节点都需要执行)

虚拟机的关机方式:

        ·关机:shutdown -h now

        ·重启:reboot

⚠️⚠️⚠️


2.数仓

        2.1数据仓库与数据库

  • 数据仓库:存储数据的仓库,主要用于存储过去既定发生的历史数据,对这些数据进行分析操作,从而对未来提供决策支持
  • 数据仓库的最大特点:既不生产数据,也不消耗数据;数据来源于各个数据源
  • 数据仓库的四大特征:1.面向于主题:面向于分析,分析内容与主题一致                                                            2.集成性:数据来源于各个数据源,将各数据源汇总在一起                                              3.非易失性(稳定性):存储在数仓中的数据都是过去既定发生                                                    的数据,相对稳定,不会发生改变                                                                       4.时变性:随着时间推移,原有分析手段及原有数据可能出现变化
  • ETL:Extract-Transform-Load(抽取、转换、加载),指数据从数据源将数据灌入到ODS层以及从ODS层将数据抽取出来,对数据进行转换处理工作,最终将数据加载到DW层,然后DW层对数据进行统计分析,将分析后的数据灌入到DA层,整个过程都属于ETL的范畴。狭义上的ETL指从ODS层到DW层的过程
  • 数据仓库和数据库区别:
    • 1. 数据库(OLTP):面向于事务(业务)的,主要用于捕获数据,主要存储最近一段时间的业务数据,交互性强(延迟低)一般不允许数据冗余
    • 2.数据仓库(OLAP):面向于分析(主题)的,主要用于分析数据,主要存储过去的历史数据,延迟高(交互性弱),一般允许数据冗余
OLTP与OLAP区别
OLTP OLAP
功能 面向交易的事务处理 面向分析查询
设计 面向业务 面向主题

数据

最新数据(二维数据) 历史数据(多维数据)
存储 M、G(单位) T、P、E
响应时间
用户 业务操作人员 管理决策人员

        2.2数据仓库和数据集市

  • 数据仓库:指集团数据中心,主要将公司中所有数据集中聚集在一起进行相关的处理操作(ODS层),一般与主题无关
  • 数据集市(小型数据仓库):在数仓基础之上,基于主题对数据进行抽取处理分析工作,形成最终分析的结果,一个数仓下可有多个集市

        2.3维度分析

  • 维度,一般指分析的角度,看待一个问题时可有多个角度就是维度。(如,有2022年订单数据,尝试分析;可以从时间、地域、商品....)
  • 维度可分为定性维度定量维度
    • 定性维度:指计算每天、每月...各个维度,一般定性维度的字段都在grou by 后
    • 定量维度:指的统计某一个具体的维度或者某一范围下的信息,一般定量维度的字段在 where 后。(如统计2022年订单中20~30岁区间人群人数)
  • 维度的上卷、下钻:以某一维度为基准,往细化统计的过程称为下钻;往粗粒度称为上卷
    • 如:按照天统计,需统计出小时,指的是下钻,需统计季度、月、年成为上卷
    • 从实际分析中,意味着统计的维度变得更多

        2.4指标

  • 指标:指衡量事务发展的标准,就是度量值;常见度量值:count()、sum()、avg().....
  • 指标可分为绝对指标相对指标
    • 绝对指标:计算具体的值指标。count()、max()、min()、avg()
    • 相对指标:计算比率问题的指标。转化率、流失率....
  •  需求:在2022年度,女性、未婚、18~25岁,用户每一天的订单量
    • 维度:时间维度、性别、婚姻状况、年龄
      • 定量维度:2022年度、18~25、女
    • 指标:订单量(绝对指标)===> count()

3.数仓建模

        3.1建模理论

数仓建模:指如何在Hive中建表,主要提供两种理论进行数仓建模操作

  • 三范式建模:主要是存在关系型数据库建模方案上,规定了比如建表的每一表都应该有一个主键,数据要经历的避免冗余发生
  • 维度建模:主要存在分析性数据库建模方案上,主要一切以分析为目标,只要有利于分析的建模都可以,允许出现一定的冗余,表也可以无主键

1——Hive数仓项目完整流程(在线教育)_第2张图片

 三范式建模:SQL需要进行三表关联

 维度建模:SQL只需要操作一张表

        3.2维度建模

维度建模的两个核心概念:事实表维度表

  • 事实表,指分析主题所对应的表,每一天数据用于描述一个具体的事实信息,这些表都是由一堆主键(外键)和描述事实字段的聚集。(一般需要计算的指标字段所在表都是事实表)
  • 事实表分为:
    • 事务事实表,保存的是原子的数据,也称原子事实表;交易事实表。一般常说的事实表,大多指事务事实表
    • 周期快照事实表,其以具有规律性的·可预见的时间间隔来记录事实,时间间隔如每天、每月、每年等,其由事务表加工产生
    • 累计快照事实表,完全覆盖一个事务或产品的生命周期的时间跨度,通常具有多个日期字段,用来记录整个生命周期的关键时间节点
  • 维度表,指的是在对事实表进行统计分析时,基于某一个维度,而这个维度信息可能在其他表中,而这些表就是维度表
  • 维度表不一定存在,但维度一定存在。如:
    • 根据用户维度进行统计,如果在事实表只存储了用户 id ,此时需要关联用户表,这个时候就是维度表
    • 根据用户维度进行统计,如果在事实表不仅仅存储了用户 id 还存储了用户名称,这时候有用户维度,但不需要用户表的参与,意味着没有这个维度表
  • 维度表分为高基数维度表低基数维度表 
    • 高基数维度表,指表中数据量庞大,而且数据也在发生变化(商品表、商品表)
    • 低基数维度表,指表中数据量不大,一般几十到几千条,并且数据相对稳定(日期表、配置表、区域表)

        3.3维度建模的三种模型

  • 星型模型
    • 特点:只有一个事实表,就意味着只有一个分析主题,在事实表周围有多少个维度表,并且维度表之间没有任何依赖
    • 数仓发展初期最容易产生的模型
  • 雪花模型
    • 特点:只有一个事实表,意味着一个分析主题,在其周围有多个维度表,维度表之间有关联
    • 数仓发展出现畸形产生模型,这种模型一旦出现,对后期维护非常繁琐,依赖层次越大,SQL越难(尽量减少此种模型产生)
  • 星座模型
    • 特点:有多个事实表,意味着多个分析主题,在事实表周围有多个维度表,多个事实表在条件符合的情况下,可以共享维度表
    • 数仓发展中后期最容易产生的模型

        3.4缓慢渐变维

缓慢渐变维:解决历史变更数据是否需要维护的情况

  1. SCD1,直接覆盖,不维护历史变化数据;主要适用于对错误数据处理
  2. SCD2,不删除,不修改已存在的数据,当数据发生变更后,会添加一条新版本记录的数据。在建表的时候,会多加两个字段(起始时间,截至时间)通过这两个字段来标记每条数据的起止时间,一般称为“拉链表”
    1. 适用于多个历史版本,方便维护实现。
    2. 易造成数据冗余,导致磁盘占用率提升
  3. SCD3,通过增加列的方式来维护历史变化数据,可减少数据冗余,适用于少量历史版本的记录及磁盘空间不是特别充足的情况,但无法记录更多的历史版本,以及维护比较繁琐

例子: 张三1-6月份在北京消费100W

原始数据:

 

后来由于工作原因7月份搬到上海消费100W

SCD1:直接覆盖

SCD2:增加两个字段,添加一行

1——Hive数仓项目完整流程(在线教育)_第3张图片 

SCD3:在原始数据基础上添加新的一列

 

 

 


总结

        以上就是本篇所要阐述的全部内容,主要讲解了本项目索要用到的各种软件以及部分数仓的理论知识,之后将以项目为驱动对数仓进行系统的学习。

        以上内容有什么不恰当的地方,也欢迎大佬前来赐教,同时也希望可以帮到大家!!!谢谢大家!!

你可能感兴趣的:(python大数据,数仓实战,大数据,数据仓库,python)