数仓理论- 02 数据仓库架构

3 架构

3.1 架构图

数仓理论- 02 数据仓库架构_第1张图片

3.1.1 说明

不同企业存在差异,例如:命名不一样,或者是定制的,主流以阿里的参考

3.1.2 内容

ETL,ODS,CDM(DWS,DWD),ADS

3.1.3 ETL:数据同步模块

  1. 从业务数据库(即数据源)抽取数据extract

  2. 交互转换:进行清洗一级标准化transform

  3. 加载load

  4. 使用的工具:Sqoop,Kettle,Flume/Logstash(日志,文件等非结构化,半结构化的数据)

3.1.4 ODS:操作数据源层

ODS,英文Operational Data Store,操作数据源层。因为业务数据库定期会删历史数据,这一层与原始数据保持一致,后续如果要用历史数据可以从ODS层查找,目的是为了存储原始数据,体现数据仓库非易失性。

3.1.5 CDM:公共纬度模型层

是为数据分析提供服务的

  1. DWD:英文全称Data Warehouse Details 数据明细层

​ (1) 是接收ODS层数据的一层数据,由于ODS层数据格式不统一,DWD会对其进行清洗,标准化,统一规范:剔除异常数据,做一些统一的编码,字段的描述,并存储到DWD层,即是统一规范后的数据了(一般为零散表和业务系统差不多,不足以提供数据分析)

​ (2) 满足三范式的数据

  1. DWS:英文全称Data Warehouse Service 数据汇总层/数据服务层

​ (1) 按照主题进行汇总跟聚合成一张大宽表,满足特定主题和纬度的分析

​ (2) 已经脱离三范式(范式数据资料百度补充),是为了提升数据分析的性能,后续在宽表上进行数据建模,以模型方式保存,数据仓库建模就是在这一层

3.1.6 补充三范式知识

  1. 第一范式:

数仓理论- 02 数据仓库架构_第2张图片

  1. 第二范式
  • 原表

数仓理论- 02 数据仓库架构_第3张图片

  • 先改成第一范式表

数仓理论- 02 数据仓库架构_第4张图片

  • 在进行第二范式的设计

数仓理论- 02 数据仓库架构_第5张图片

  1. 第三范式
  • 原表

数仓理论- 02 数据仓库架构_第6张图片

  • 设计成满足三范式的表

数仓理论- 02 数据仓库架构_第7张图片

3.1.7 ADS层:数据应用层

  1. 英文全称Application Data Service,数据应用层。是建模后的一层,可以交由应用去访问,具体以报表形式提供给上层决策,或者提供给业务系统进行展示
  2. 有的企业每一层会选用不同产品,虽然CDM层也注重了分析性能,但是ADS层更加注重于访问查询速度,ADS有时候独立出去即是数据集市层,ADS有时候就用传统数据库搭建了,会有查询接口进行接入

3.2 ETL流程:

ETL规则的设计和实施约占百分之60-80

3.2.1 E:数据抽取

  1. 可抽结构化数据,非结构化数据,半结构化数据

  2. 抽取工具:

    (1)结构化:

​ ①采用JDBC连接到数据库进行抽取,这种方式采用直连,会增加数据库的IO与负载,造成对原来业务的影响,所以一般会在凌晨的时候业务量时进行抽取,但是存在局限性,例如:金融行业中有的不允许对库抽,是考虑到安全和业务的稳定。

  • JDBC概念:JDBC(Java DataBase Connectivity,Java数据库连接),是一种用于执行 SQL 语句的 Java API ,可以为多种关系数据库提供统一访问,它由一组用Java语言编写的类和接口组成。

​ ②抽取数据库日志,这种非直接连接数据库,日志存在本地的磁盘中,直接采集数据库的WAL(预写日志文件),对数据库影响较小, 不走数据库前端,但是采集到日志数据需要解析后(工具:Oracle使用的OGG,其他数据库支持的CDC),才能获取到数据

  • 数据库日志概念:对数据的任何更新操作(如:增加、修改、删除),都要把相关操作的命令、执行时间、数据的更新等信息保存下来。这些被保存的信息就是数据库 日志
  • 数据库的WAL概念:Write Ahead Logging,它是很多数据库中用于实现原子事务的一种机制。修改并不直接写入到数据库文件中,而是写入到另外一个称为WAL的文件中;如果事务失败,WAL中的记录会被忽略,撤销修改;如果事务成功,它将在随后的某个时间被写回到数据库文件中,提交修改。

​ (2)非结构化数据,半结构化数据:比如日志,json,以文件形式存在,只要监控文件是否发生变动,并抽取就可以了

3.抽取方式:

(1)全量同步:业务数据库有多少数据,全抽出来导入数据仓库中,一般用于初始化的数据装载(数仓刚搭建的时候)

(2)增量同步:检测每天的数据变动,抽取发生变动的数据,这种方式花费时间就会少一些,压力也就更小了

3.2.2 T:数据转换

  1. 非结构化数据

​ ①清洗:重复,二义性,不完整,违反业务逻辑

​ ②转换:标准化处理,违反字段,数据类型,数据定义的转换

  1. 结构化数据:处理逻辑简单,一般去重等基本操作就可以,结构化数据一般跟业务数据库保持一致,如果出现需要清洗多的数据,则业务数据库那边说明有一定的问题

3.2.3 L:数据加载

处理的数据导入到对应的目标源中,这样这样就是把数据放到了ODS层

3.2.4 常用的etl工具

  1. 结构化数据:

​ ①Sqoop:常见,通过JDBC连接数据库并抽取,使用并发处理的形式,批量导入到大数据的数据仓库里

​ ②Kettle:可视化界面,开源免费

​ ③Datastage:收费商业,贵

​ ④Informatica:收费商业,贵

​ ⑤Kafka:消息队列,也可以提供ETL 的功能

  1. 非结构化:

①Flume:老牌,可以对文件对端口等数据进行监控,抽取变动数据

②Logstash:属于Elastic家族的,做日志,文件监控的

数仓理论- 02 数据仓库架构_第8张图片

3.3 操作数据层ODS

1.数据和原业务数据库保持一致,可以增加字段来进行管理(ODS是原数据库的一个扩充集)

  • 例如:update_time,from,update_type都是在原来基础上增加的三个字段,update type是更新类型,有两种,一种是insert,一种是update,insert好理解,就是同步过来的正常数据,update是因为历史数据定期在业务库中删除后,查询任务就落在了数仓中,update是为了修改历史数据,但是ODS数据又不能被修改,于是会在业务系统中修改,然后再追加到ODS中后追加产生的

在这里插入图片描述

2.如何区分数据是修改的还是新增的:

(1)增量数据先和ODS中的表进行join,没有join成功的就是新增的,join成功肯定是更新数据,没成功就是修改的,把更新的数据update_type把变成update,然后把新增的、修改的都统一追加到ODS层

但是有个问题,如果业务数据库那边更新近期数据比较频繁,会导致数仓的冗余

(2)外连接&全覆盖:

此方式企业用的比较多了,在更新数据比较多的情况下,增量数据和历史数据做一个全外连接,这样就可以判断哪一些是新增的,哪一些是修改的,修改的在内存中直接修改点,把原来ODS数据给覆盖掉,这样就是和业务数据库一致了,并且没有冗余!!

3.4 数据明细层DWD

1.主要对ODS数据进行清洗,标准化,纬度退化(时间,分类,地域),

  • 维度定义:对数据的一种组织方式,理解为分类即可
  • 例如下图:商品表通过品类ID关联了三级分类,三级分类又通过ID去关联了二级分类,依次到一级分类

数仓理论- 02 数据仓库架构_第9张图片

(1)分类

这些维表在做数据分析时会效率会很低,因为join操作会引起大量数据的移动(应该就是经常会说到的shuffle),所以在DWD这一层会做一个维度的退化,把三张维表全部合并到主表中来,合并结果会增加一些字段(维表字段)

(2)地域

例如来自不用地域的字段相同的用户表,汇总成一张表,地域字段city,分析运算的性能也就提升了

数仓理论- 02 数据仓库架构_第10张图片

2.依然满足三范式模型:只不过做了一些基础的纬度退化

3.5 数据汇总层DWS

1.把数据明细层DWD干净的数据,仍然符合三范式的零散的表,聚集汇总成主题表(大宽表),体现了数据仓库面向主题的特性

数仓理论- 02 数据仓库架构_第11张图片

2.脱离了三范式,在大数据数仓中就是宽表了,在传统数仓还要建模(例如纬度建模),其实宽表也是模型叫宽表模型,是数仓的核心

3.6 数据应用层ADS

1.由于数仓重视数据计算(批处理),和外界外部系统查询或者交互的效率就很低,如果直接开放,大量的查询落进来,全部转化成批处理,频繁查询会给数仓带来压力,业务那边也会出现因为数据查询结果不及时的问题,所以会有一层ADS层来存储数据,ADS层会采用一些产品为外部系统提供访问接口,提供更快的查询跟交互速度

2.举例:

要满足报表的快递查询放在Kylin(报表决策),要满足前段业务的并发查询的Hbase,满足前段的智能检索,放Elasticsearch,因此ADS会有多个产品组成完成业务的不同功能,成本低的也可以直接放mysql等一些数据库中查询

你可能感兴趣的:(数据仓库,架构,数据挖掘)